論文の概要: DocDancer: Towards Agentic Document-Grounded Information Seeking
- arxiv url: http://arxiv.org/abs/2601.05163v1
- Date: Thu, 08 Jan 2026 17:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.316823
- Title: DocDancer: Towards Agentic Document-Grounded Information Seeking
- Title(参考訳): DocDancer: エージェントドキュメンテーションを取り巻く情報検索を目指して
- Authors: Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao, Guochen Yan, Huanyao Zhang, Bin Wang, Jiahao Xu, Haitao Mi, Wentao Zhang,
- Abstract要約: Document Question Answering (DocQA) は、与えられた文書に根ざした質問に答えることに焦点を当てている。
既存のDocQAエージェントは効果的なツール利用がなく、主にクローズドソースモデルに依存している。
我々は、エンドツーエンドの訓練済みオープンソースDocエージェントDocDancerを紹介する。
- 参考スコア(独自算出の注目度): 27.08333983540891
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Document Question Answering (DocQA) focuses on answering questions grounded in given documents, yet existing DocQA agents lack effective tool utilization and largely rely on closed-source models. In this work, we introduce DocDancer, an end-to-end trained open-source Doc agent. We formulate DocQA as an information-seeking problem and propose a tool-driven agent framework that explicitly models document exploration and comprehension. To enable end-to-end training of such agents, we introduce an Exploration-then-Synthesis data synthesis pipeline that addresses the scarcity of high-quality training data for DocQA. Training on the synthesized data, the trained models on two long-context document understanding benchmarks, MMLongBench-Doc and DocBench, show their effectiveness. Further analysis provides valuable insights for the agentic tool design and synthetic data.
- Abstract(参考訳): Document Question Answering (DocQA)は、与えられた文書に根ざした質問に答えることに重点を置いているが、既存のDocQAエージェントは効果的なツール利用に欠けており、主にクローズドソースモデルに依存している。
本稿では、エンドツーエンドでトレーニングされたオープンソースDocエージェントであるDocDancerを紹介する。
我々はDocQAを情報探索問題として定式化し、文書探索と理解を明示的にモデル化するツール駆動型エージェントフレームワークを提案する。
このようなエージェントのエンドツーエンドのトレーニングを可能にするために,DocQAのための高品質なトレーニングデータの不足に対処するExploration-then-Synthesisデータ合成パイプラインを導入する。
MMLongBench-Doc と DocBench の2つの長文文書理解ベンチマーク上での学習モデルは,その有効性を示している。
さらなる分析は、エージェントツール設計と合成データに対する貴重な洞察を提供する。
関連論文リスト
- OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - DocAgent: A Multi-Agent System for Automated Code Documentation Generation [7.653779364214401]
本稿では、トポロジ的コード処理によるインクリメンタルコンテキスト構築のための新しいマルチエージェント協調システムDocAgentを紹介する。
特殊なエージェント(Reader、Searcher、Writer、Verifier、Orchestrator)が共同でドキュメントを生成する。
また, 完全性, ヘルプ性, 真実性を評価する多面的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-11T17:50:08Z) - BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。
情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。
一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文 参考訳(メタデータ) (2025-01-06T21:46:22Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。