論文の概要: PaperVoyager : Building Interactive Web with Visual Language Models
- arxiv url: http://arxiv.org/abs/2603.22999v2
- Date: Sat, 28 Mar 2026 06:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.795539
- Title: PaperVoyager : Building Interactive Web with Visual Language Models
- Title(参考訳): PaperVoyager : ビジュアル言語モデルを用いたインタラクティブWebの構築
- Authors: Dasen Dai, Biao Wu, Meng Fang, Wenhao Wang,
- Abstract要約: 本稿では,研究論文を対話型Webシステムに変換するPaper-to-Interactive-System Agentを提案する。
PDFの論文が与えられた場合、エージェントは人間の介入なしにエンドツーエンドの処理を行う。
実験の結果,PaperVoyagerは生成した対話システムの品質を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 35.73710997735284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual language models have enabled autonomous agents for complex reasoning, tool use, and document understanding. However, existing document agents mainly transform papers into static artifacts such as summaries, webpages, or slides, which are insufficient for technical papers involving dynamic mechanisms and state transitions. In this work, we propose a Paper-to-Interactive-System Agent that converts research papers into executable interactive web systems. Given a PDF paper, the agent performs end-to-end processing without human intervention, including paper understanding, system modeling, and interactive webpage synthesis, enabling users to manipulate inputs and observe dynamic behaviors. To evaluate this task, we introduce a benchmark of 19 research papers paired with expert-built interactive systems as ground truth. We further propose PaperVoyager, a structured generation framework that explicitly models mechanisms and interaction logic during synthesis. Experiments show that PaperVoyager significantly improves the quality of generated interactive systems, offering a new paradigm for interactive scientific paper understanding.
- Abstract(参考訳): 視覚言語モデルの最近の進歩は、複雑な推論、ツールの使用、文書理解のための自律エージェントを可能にしている。
しかし、既存のドキュメントエージェントは、主に文書を要約、Webページ、スライドなどの静的なアーティファクトに変換するが、動的メカニズムや状態遷移を含む技術論文には不十分である。
本研究では,研究論文を対話型Webシステムに変換するPaper-to-Interactive-System Agentを提案する。
PDFの論文を与えられたエージェントは、紙の理解、システムモデリング、インタラクティブなWebページ合成など、人間の介入なしにエンドツーエンドの処理を行い、ユーザは入力を操作でき、動的な振る舞いを観察できる。
この課題を評価するために、専門家が構築した対話システムと組み合わせた19の研究論文のベンチマークを根拠として紹介する。
さらに、合成中のメカニズムと相互作用ロジックを明示的にモデル化する構造化生成フレームワークであるPaperVoyagerを提案する。
実験により、PaperVoyagerは生成したインタラクティブシステムの品質を大幅に改善し、インタラクティブな科学論文理解のための新しいパラダイムを提供することが示された。
関連論文リスト
- Doc To The Future: Infomorphs for Interactive, Multimodal Document Transformation and Generation [4.665470854146965]
我々は、制御された合成をサポートし、形式やモダリティをまたいだ情報の再構成を行うモジュール型、ユーザステアブル、AI強化された変換である「インフォモルフ」の概念を導入する。
本稿では,ユーザ意図と所望の情報コンテキストを組み合わせ,インフォモーフィック駆動型文書作成を実現する設計空間を提案する。
DocuCraftは、ページ抽出、コンテンツ要約、再フォーマット、生成といった操作を実行するインフォモーフィックをチェーンして、各ステージで生成AIを活用して、リッチでクロスドキュメント、クロスモーダルな変換をサポートする。
論文 参考訳(メタデータ) (2025-12-14T16:25:19Z) - Paper2Web: Let's Make Your Paper Alive! [51.75896846964824]
学術Webページ生成を評価するためのベンチマークデータセットとフレームワークであるPaper2Webを紹介する。
PWAgentは、科学論文をインタラクティブでマルチメディアに富んだ学術ホームページに変換する自律パイプラインである。
論文 参考訳(メタデータ) (2025-10-17T17:35:58Z) - Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents [24.762629506054125]
本稿では,研究論文をAIエージェントに変換する自動フレームワークPaper2Agentを紹介する。
Paper2Agentは、受動的アーティファクトから研究成果を、下流の使用、導入、発見を加速できるアクティブシステムに変換する。
論文 参考訳(メタデータ) (2025-09-08T17:28:42Z) - Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。
このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。
本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:58:12Z) - Drama Engine: A Framework for Narrative Agents [0.0]
Drama Engineは、物語の目的のために設計された大規模言語モデルとのエージェントインタラクションのためのフレームワークである。
このフレームワークはマルチエージェントシステムの原則を適用し、動的でコンテキスト対応のコンパニオンを作成する。
このフレームワークのアプリケーションには、マルチエージェントチャットや、クリエイティブな執筆のための仮想同僚が含まれる。
論文 参考訳(メタデータ) (2024-08-21T12:29:38Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。