論文の概要: Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research
- arxiv url: http://arxiv.org/abs/2510.21603v1
- Date: Fri, 24 Oct 2025 16:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.536985
- Title: Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research
- Title(参考訳): Doc-Researcher:マルチモーダル文書解析とディープリサーチのための統一システム
- Authors: Kuicai Dong, Shurui Huang, Fangda Ye, Wei Han, Zhi Zhang, Dexun Li, Wenjun Li, Qu Yang, Gang Wang, Yichao Wang, Chen Zhang, Yong Liu,
- Abstract要約: Doc-Researcherは、テキストのみ、ビジョンのみ、ハイブリッドパラダイム間のギャップを埋める統一システムである。
マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。
Doc-Researcherの精度は50.6%で、最先端のベースラインよりも3.4倍高い。
- 参考スコア(独自算出の注目度): 31.973886754355547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Research systems have revolutionized how LLMs solve complex questions through iterative reasoning and evidence gathering. However, current systems remain fundamentally constrained to textual web data, overlooking the vast knowledge embedded in multimodal documents Processing such documents demands sophisticated parsing to preserve visual semantics (figures, tables, charts, and equations), intelligent chunking to maintain structural coherence, and adaptive retrieval across modalities, which are capabilities absent in existing systems. In response, we present Doc-Researcher, a unified system that bridges this gap through three integrated components: (i) deep multimodal parsing that preserves layout structure and visual semantics while creating multi-granular representations from chunk to document level, (ii) systematic retrieval architecture supporting text-only, vision-only, and hybrid paradigms with dynamic granularity selection, and (iii) iterative multi-agent workflows that decompose complex queries, progressively accumulate evidence, and synthesize comprehensive answers across documents and modalities. To enable rigorous evaluation, we introduce M4DocBench, the first benchmark for Multi-modal, Multi-hop, Multi-document, and Multi-turn deep research. Featuring 158 expert-annotated questions with complete evidence chains across 304 documents, M4DocBench tests capabilities that existing benchmarks cannot assess. Experiments demonstrate that Doc-Researcher achieves 50.6% accuracy, 3.4xbetter than state-of-the-art baselines, validating that effective document research requires not just better retrieval, but fundamentally deep parsing that preserve multimodal integrity and support iterative research. Our work establishes a new paradigm for conducting deep research on multimodal document collections.
- Abstract(参考訳): 深層研究システムは、反復的推論と証拠収集を通じて、LLMが複雑な問題の解決方法に革命をもたらした。
しかし、現在のシステムは基本的にテキストウェブデータに拘束されており、マルチモーダル文書に埋め込まれた膨大な知識を見渡すことができる。そのような文書を処理するには、視覚的意味論(図、表、チャート、方程式)を維持するための洗練された解析、構造的コヒーレンスを維持するためのインテリジェントなチャンキング、既存のシステムにはない機能であるモジュール間の適応的検索が必要である。
そこで本研究では,このギャップを3つの統合コンポーネントでブリッジする統合システムであるDoc-Researcherを提案する。
(i) チャンクから文書レベルまで多言語表現を作成しながら、レイアウト構造と視覚的意味論を保存するディープ・マルチモーダル・パーシング。
(II)動的粒度選択を伴うテキストのみ、視覚のみ、ハイブリッドパラダイムをサポートする体系的検索アーキテクチャ
三 複雑なクエリを分解し、段階的に証拠を蓄積し、文書及びモダリティにわたって包括的な回答を合成する反復的多エージェントワークフロー。
厳密な評価を可能にするため,マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。
M4DocBenchは、304文書にわたる完全なエビデンスチェーンを備えた158のエキスパート注釈付き質問と、既存のベンチマークで評価できないテスト機能を備えている。
実験の結果、Doc-Researcherは最先端のベースラインよりも50.6%の精度で3.4倍の精度を達成し、効果的なドキュメント研究がより良い検索だけでなく、基本的にはマルチモーダルな完全性を維持し、反復的な研究をサポートする深層解析を必要とすることが証明された。
本研究は,マルチモーダル文書コレクションの詳細な研究を行うための新たなパラダイムを確立する。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? [16.717935491483146]
Double-Benchは、大規模、多言語、マルチモーダル評価システムである。
ドキュメントRAGシステム内の各コンポーネントに対してきめ細かい評価を行う。
3,276のドキュメント(72,880ページ)と6言語で5,168のシングルホップクエリで構成されている。
論文 参考訳(メタデータ) (2025-08-05T16:55:02Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。