論文の概要: DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections
- arxiv url: http://arxiv.org/abs/2508.15851v1
- Date: Wed, 20 Aug 2025 08:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.120797
- Title: DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections
- Title(参考訳): DocHop-QA:マルチモーダル文書コレクションに対するマルチホップ推論を目指して
- Authors: Jiwon Park, Seohyun Pyeon, Jinwoo Kim, Rina Carines Cabal, Yihao Ding, Soyeon Caren Han,
- Abstract要約: 本稿では,マルチモーダル,マルチドキュメント,マルチホップ質問応答のための大規模ベンチマークであるDocHop-QAを提案する。
DocHop-QAはドメインに依存しないもので、テキストパス、テーブル、構造的なレイアウトキューなど、さまざまな情報フォーマットが組み込まれている。
我々は,構造化インデックス予測,生成応答,マルチモーダル統合の4つのタスクを通してDocHop-QAを評価した。
- 参考スコア(独自算出の注目度): 23.428084176322866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in large language models (LLMs), most QA benchmarks are still confined to single-paragraph or single-document settings, failing to capture the complexity of real-world information-seeking tasks. Practical QA often requires multi-hop reasoning over information distributed across multiple documents, modalities, and structural formats. Although prior datasets made progress in this area, they rely heavily on Wikipedia-based content and unimodal plain text, with shallow reasoning paths that typically produce brief phrase-level or single-sentence answers, thus limiting their realism and generalizability. We propose DocHop-QA, a large-scale benchmark comprising 11,379 QA instances for multimodal, multi-document, multi-hop question answering. Constructed from publicly available scientific documents sourced from PubMed, DocHop-QA is domain-agnostic and incorporates diverse information formats, including textual passages, tables, and structural layout cues. Unlike existing datasets, DocHop-QA does not rely on explicitly hyperlinked documents; instead, it supports open-ended reasoning through semantic similarity and layout-aware evidence synthesis. To scale realistic QA construction, we designed an LLM-driven pipeline grounded in 11 high-frequency scientific question concepts. We evaluated DocHop-QA through four tasks spanning structured index prediction, generative answering, and multimodal integration, reflecting both discriminative and generative paradigms. These tasks demonstrate DocHop-QA's capacity to support complex, multimodal reasoning across multiple documents.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の進歩にもかかわらず、ほとんどのQAベンチマークは依然として単一パラグラフや単一ドキュメント設定に限定されており、実際の情報検索タスクの複雑さを捉えていない。
実践的なQAは、複数のドキュメント、モダリティ、構造形式に分散した情報に対するマルチホップ推論を必要とすることが多い。
以前のデータセットはこの領域で進展したが、ウィキペディアベースのコンテンツと単文の平文に大きく依存しており、通常は短いフレーズレベルや単一文の回答を生成する浅い推論経路により、現実性と一般化性を制限する。
マルチモーダル,マルチドキュメント,マルチホップ質問応答のための11,379のQAインスタンスからなる大規模ベンチマークであるDocHop-QAを提案する。
DocHop-QAはPubMedから公開されている科学文書から構築され、ドメインに依存しない。
既存のデータセットとは異なり、DocHop-QAは明示的にハイパーリンクされたドキュメントに依存しない。
現実的なQA構築をスケールするために、11の高周波科学的問題概念を基礎としたLLM駆動パイプラインを設計した。
ドクホップQAは, 識別的および生成的パラダイムの両方を反映して, 構造化インデックス予測, 生成的回答, マルチモーダル統合の4つのタスクにまたがる評価を行った。
これらのタスクは、DocHop-QAが複数のドキュメントにわたる複雑なマルチモーダル推論をサポートする能力を示している。
関連論文リスト
- MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and
Textual Data [7.063167712310221]
既存のハイブリットデータに対する質問応答ベンチマークには、各ドキュメントに1つのフラットテーブルしか含まれていない。
大規模ベンチマークであるMultiHierttを構築し、多階層タブラリデータとテクスチュアルデータにQAペアを配置する。
結果から,MultiHierttは,人的専門家の業績よりもはるかに遅れている既存のベースラインに対して,強い課題を呈していることがわかった。
論文 参考訳(メタデータ) (2022-06-03T00:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。