論文の概要: Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2603.01912v1
- Date: Mon, 02 Mar 2026 14:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.908296
- Title: Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration
- Title(参考訳): ViviDocのデモ:人間とエージェントのコラボレーションによるインタラクティブドキュメントの生成
- Authors: Yinghao Tang, Yupeng Xie, Yingchaojie Feng, Tingfeng Lan, Wei Chen,
- Abstract要約: 本稿では,1つのトピック入力から対話型教育文書を生成する人間エージェント協調システムViviDocを提案する。
ViviDocはマルチエージェントパイプライン(Planner, Executor, Evaluator)とドキュメント仕様(DocSpec)を導入している。
専門家による評価とユーザスタディにより、ViviDocは単純エージェント生成を著しく上回り、直感的な編集体験を提供することが示された。
- 参考スコア(独自算出の注目度): 4.751545995185441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive articles help readers engage with complex ideas through exploration, yet creating them remains costly, requiring both domain expertise and web development skills. Recent LLM-based agents can automate content creation, but naively applying them yields uncontrollable and unverifiable outputs. We present ViviDoc, a human-agent collaborative system that generates interactive educational documents from a single topic input. ViviDoc introduces a multi-agent pipeline (Planner, Executor, Evaluator) and the Document Specification (DocSpec), a human-readable intermediate representation that decomposes each interactive visualization into State, Render, Transition, and Constraint components. The DocSpec enables educators to review and refine generation plans before code is produced, bridging the gap between pedagogical intent and executable output. Expert evaluation and a user study show that ViviDoc substantially outperforms naive agentic generation and provides an intuitive editing experience. Our project homepage is available at https://vividoc-homepage.vercel.app/.
- Abstract(参考訳): インタラクティブな記事は、読者が探索を通じて複雑なアイデアに取り組むのを助けるが、それを作るのにコストがかかり、ドメインの専門知識とWeb開発スキルの両方を必要とする。
近年のLCMをベースとしたエージェントはコンテンツ生成を自動化できるが、それらを適用すると、制御不能で検証不能な出力が得られる。
本稿では,1つのトピック入力から対話型教育文書を生成する人間エージェント協調システムViviDocを提案する。
ViviDocはマルチエージェントパイプライン(Planner、Executor、Evaluator)とDocSpec(DocSpec)を導入している。
DocSpecは、コードが生成される前に、教育者が生成計画を見直し、洗練し、教育意図と実行可能出力のギャップを埋めることを可能にする。
専門家による評価とユーザスタディにより、ViviDocは単純エージェント生成を著しく上回り、直感的な編集体験を提供することが示された。
プロジェクトのホームページはhttps://vividoc-homepage.vercel.app/.comで公開されている。
関連論文リスト
- DocDancer: Towards Agentic Document-Grounded Information Seeking [27.08333983540891]
Document Question Answering (DocQA) は、与えられた文書に根ざした質問に答えることに焦点を当てている。
既存のDocQAエージェントは効果的なツール利用がなく、主にクローズドソースモデルに依存している。
我々は、エンドツーエンドの訓練済みオープンソースDocエージェントDocDancerを紹介する。
論文 参考訳(メタデータ) (2026-01-08T17:54:32Z) - DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding [59.4112754806335]
我々は、レンズのようなエビデンスに対して「効果的にズームインする」ツール強化マルチエージェントフレームワークであるDocLensを提案する。
最初はドキュメント全体から、関連するページの特定のビジュアル要素にナビゲートし、次にサンプリング・アジュディテーション機構を使用して、信頼できる1つの回答を生成する。
MMLongBench-DocとFinRAG-Vで最先端のパフォーマンスを達成し、人間専門家さえ超えている。
論文 参考訳(メタデータ) (2025-11-14T18:42:18Z) - Paper2Web: Let's Make Your Paper Alive! [51.75896846964824]
学術Webページ生成を評価するためのベンチマークデータセットとフレームワークであるPaper2Webを紹介する。
PWAgentは、科学論文をインタラクティブでマルチメディアに富んだ学術ホームページに変換する自律パイプラインである。
論文 参考訳(メタデータ) (2025-10-17T17:35:58Z) - ExpVid: A Benchmark for Experiment Video Understanding & Reasoning [65.17173232816818]
科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-10-13T16:45:28Z) - DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral [11.336757553731639]
多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。
多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。
初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
論文 参考訳(メタデータ) (2025-05-06T06:02:42Z) - DocAgent: A Multi-Agent System for Automated Code Documentation Generation [7.653779364214401]
本稿では、トポロジ的コード処理によるインクリメンタルコンテキスト構築のための新しいマルチエージェント協調システムDocAgentを紹介する。
特殊なエージェント(Reader、Searcher、Writer、Verifier、Orchestrator)が共同でドキュメントを生成する。
また, 完全性, ヘルプ性, 真実性を評価する多面的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-11T17:50:08Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。