論文の概要: ViviDoc: Generating Interactive Documents through Human-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2603.27991v1
- Date: Mon, 30 Mar 2026 03:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.210313
- Title: ViviDoc: Generating Interactive Documents through Human-Agent Collaboration
- Title(参考訳): ViviDoc: ヒューマンエージェントコラボレーションによるインタラクティブドキュメントの生成
- Authors: Yinghao Tang, Yupeng Xie, Yingchaojie Feng, Tingfeng Lan, Jiale Lao, Yue Cheng, Wei Chen,
- Abstract要約: インタラクティブなドキュメントは、ダイナミックな可視化、インタラクティブなアニメーション、探索的なインターフェイスを通じて、読者が複雑なアイデアに取り組むのに役立つ。
近年のLarge Language Model (LLM) ベースのエージェントは、コンテンツ生成を自動化できるが、インタラクティブなドキュメント生成に直接適用することで、制御が難しい出力を生成することが多い。
インタラクティブなドキュメント生成を体系的に扱うための最初の作業として,私たちの知る限り,ViviDocを紹介します。
- 参考スコア(独自算出の注目度): 6.761074932523358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive documents help readers engage with complex ideas through dynamic visualization, interactive animations, and exploratory interfaces. However, creating such documents remains costly, as it requires both domain expertise and web development skills. Recent Large Language Model (LLM)-based agents can automate content creation, but directly applying them to interactive document generation often produces outputs that are difficult to control. To address this, we present ViviDoc, to the best of our knowledge the first work to systematically address interactive document generation. ViviDoc introduces a multi-agent pipeline (Planner, Styler, Executor, Evaluator). To make the generation process controllable, we provide three levels of human control: (1) the Document Specification (DocSpec) with SRTC Interaction Specifications (State, Render, Transition, Constraint) for structured planning, (2) a content-aware Style Palette for customizing writing and interaction styles, and (3) chat-based editing for iterative refinement. We also construct ViviBench, a benchmark of 101 topics derived from real-world interactive documents across 11 domains, along with a taxonomy of 8 interaction types and a 4-dimensional automated evaluation framework validated against human ratings (Pearson r > 0.84). Experiments show that ViviDoc achieves the highest content richness and interaction quality in both automated and human evaluation. A 12-person user study confirms that the system is easy to use, provides effective control over the generation process, and produces documents that satisfy users.
- Abstract(参考訳): インタラクティブなドキュメントは、ダイナミックな可視化、インタラクティブなアニメーション、探索的なインターフェイスを通じて、読者が複雑なアイデアに取り組むのに役立つ。
しかし、ドメインの専門知識とWeb開発スキルの両方を必要とするため、そのようなドキュメントの作成には依然としてコストがかかる。
近年のLarge Language Model (LLM) ベースのエージェントは、コンテンツ生成を自動化できるが、インタラクティブなドキュメント生成に直接適用することで、制御が難しい出力を生成することが多い。
そこで本稿では,対話型文書生成の体系化に向けた最初の取り組みとして,ViviDocを紹介する。
ViviDocはマルチエージェントパイプライン(Planner、Styler、Executor、Evaluator)を導入している。
生成プロセスを制御可能にするために,1)構造化計画のためのSRTCインタラクション仕様(状態,レンダリング,遷移,制約)付き文書仕様(DocSpec),2)書き込みスタイルやインタラクションスタイルをカスタマイズするためのコンテンツ対応スタイルパレット,3)反復改善のためのチャットベースの編集の3段階の人的制御を行う。
また,11領域にわたる実世界の対話文書から抽出した101のトピックのベンチマークであるViviBenchと,8種類の対話型分類と,人間の評価に対して検証された4次元自動評価フレームワークを構築した(Pearson r > 0.84)。
実験により、ViviDocは、自動評価と人的評価の両方において、最高のコンテンツ豊かさと相互作用品質を達成することが示された。
12人のユーザによる調査では、システムは使いやすく、生成プロセスの効果的な制御を提供し、ユーザを満足させる文書を生成する。
関連論文リスト
- PaperVoyager : Building Interactive Web with Visual Language Models [35.73710997735284]
本稿では,研究論文を対話型Webシステムに変換するPaper-to-Interactive-System Agentを提案する。
PDFの論文が与えられた場合、エージェントは人間の介入なしにエンドツーエンドの処理を行う。
実験の結果,PaperVoyagerは生成した対話システムの品質を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2026-03-24T09:42:27Z) - Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration [4.751545995185441]
本稿では,1つのトピック入力から対話型教育文書を生成する人間エージェント協調システムViviDocを提案する。
ViviDocはマルチエージェントパイプライン(Planner, Executor, Evaluator)とドキュメント仕様(DocSpec)を導入している。
専門家による評価とユーザスタディにより、ViviDocは単純エージェント生成を著しく上回り、直感的な編集体験を提供することが示された。
論文 参考訳(メタデータ) (2026-03-02T14:27:49Z) - Doc To The Future: Infomorphs for Interactive, Multimodal Document Transformation and Generation [4.665470854146965]
我々は、制御された合成をサポートし、形式やモダリティをまたいだ情報の再構成を行うモジュール型、ユーザステアブル、AI強化された変換である「インフォモルフ」の概念を導入する。
本稿では,ユーザ意図と所望の情報コンテキストを組み合わせ,インフォモーフィック駆動型文書作成を実現する設計空間を提案する。
DocuCraftは、ページ抽出、コンテンツ要約、再フォーマット、生成といった操作を実行するインフォモーフィックをチェーンして、各ステージで生成AIを活用して、リッチでクロスドキュメント、クロスモーダルな変換をサポートする。
論文 参考訳(メタデータ) (2025-12-14T16:25:19Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z) - Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots [103.54897676954091]
Doc2Botは、ユーザーが会話を通じて情報を求めるのを助けるマシンを構築するためのデータセットである。
われわれのデータセットには、5つのドメインの中国の文書に基づく10万回以上のターンが含まれている。
論文 参考訳(メタデータ) (2022-10-20T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。