論文の概要: Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA
- arxiv url: http://arxiv.org/abs/2604.22239v1
- Date: Fri, 24 Apr 2026 05:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.354417
- Title: Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA
- Title(参考訳): 大規模ドキュメントコレクションのナビゲーション: マルチドキュメント分析QAのための MuDABench
- Authors: Zhanli Li, Yixuan Cao, Lvzhou Luo, Ping Luo,
- Abstract要約: 本稿では,大規模半構造化文書コレクションに対する解析的質問応答の課題について紹介する。
マルチドキュメント分析QAのベンチマークである MuDABench を提案する。
- 参考スコア(独自算出の注目度): 25.155696504567718
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces the task of analytical question answering over large, semi-structured document collections. We present MuDABench, a benchmark for multi-document analytical QA, where questions require extracting and synthesizing information across numerous documents to perform quantitative analysis. Unlike existing multi-document QA benchmarks that typically require information from only a few documents with limited cross-document reasoning, MuDABench demands extensive inter-document analysis and aggregation. Constructed via distant supervision by leveraging document-level metadata and annotated financial databases, MuDABench comprises over 80,000 pages and 332 analytical QA instances. We also propose an evaluation protocol that measures final answer accuracy and uses intermediate-fact coverage as an auxiliary diagnostic signal for the reasoning process. Experiments reveal that standard RAG systems, which treat all documents as a flat retrieval pool, perform poorly. To address these limitations, we propose a multi-agent workflow that orchestrates planning, extraction, and code generation modules. While this approach substantially improves both process and outcome metrics, a significant gap remains compared to human expert performance. Our analysis identifies two primary bottlenecks: single-document information extraction accuracy and insufficient domain-specific knowledge in current systems. MuDABench is available at https://github.com/Zhanli-Li/MuDABench.
- Abstract(参考訳): 本稿では,大規模半構造化文書コレクションに対する解析的質問応答の課題について紹介する。
本稿では,多文書分析QAのベンチマークである MuDABench について述べる。
クロスドキュメント推論に制限のある少数のドキュメントからの情報を必要とする既存のマルチドキュメントQAベンチマークとは異なり、MuDABenchはドキュメント間分析と集約を広範囲に要求する。
MuDABenchは、ドキュメントレベルのメタデータと注釈付き金融データベースを活用して、遠隔監視によって構築され、80,000ページ以上と332の分析QAインスタンスから構成される。
また、最終回答の精度を計測し、中間要素のカバレッジを推論プロセスの補助的な診断信号として利用する評価プロトコルを提案する。
実験の結果,すべての文書をフラットな検索プールとして扱う標準的なRAGシステムの性能は低いことがわかった。
これらの制約に対処するために、計画、抽出、コード生成モジュールを編成するマルチエージェントワークフローを提案する。
このアプローチはプロセスと結果のメトリクスを大幅に改善しますが、人間の専門家のパフォーマンスと比べて大きな差があります。
本分析では, 単一文書情報抽出精度と, 現在のシステムにおけるドメイン固有知識の不足という2つの主要なボトルネックを明らかにした。
MuDABenchはhttps://github.com/Zhanli-Li/MuDABench.comで入手できる。
関連論文リスト
- LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections [23.428084176322866]
本稿では,マルチモーダル,マルチドキュメント,マルチホップ質問応答のための大規模ベンチマークであるDocHop-QAを提案する。
DocHop-QAはドメインに依存しないもので、テキストパス、テーブル、構造的なレイアウトキューなど、さまざまな情報フォーマットが組み込まれている。
我々は,構造化インデックス予測,生成応答,マルチモーダル統合の4つのタスクを通してDocHop-QAを評価した。
論文 参考訳(メタデータ) (2025-08-20T08:17:45Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - How "Multi" is Multi-Document Summarization? [15.574673241564932]
MDSデータセットの参照要約とシステム要約の両方が、実際に分散情報に基づいていることが期待されている。
「要約が分散する度合いを評価するための自動測度を提案する。」
以上の結果から,MSSデータセットは複数の文書からの情報の組み合わせをほとんど必要とせず,単一の文書が要約内容全体をカバーしていることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T10:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。