論文の概要: BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence
- arxiv url: http://arxiv.org/abs/2603.07931v1
- Date: Mon, 09 Mar 2026 03:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.413658
- Title: BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence
- Title(参考訳): BRIDGE: グラウンドドエビデンスのある長いマルチモーダル文書におけるマルチホップ推論のためのベンチマーク
- Authors: Biao Xiang, Soyeon Caren Han, Yihao Ding,
- Abstract要約: BRIDGEは,長期にわたる科学論文に対するマルチホップ推論のベンチマークである。
このデータセットはチェーンライク構造とファンアウト構造の両方をサポートし、明示的なマルチホップ推論アノテーションを提供する。
- 参考スコア(独自算出の注目度): 19.79339768762567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-hop question answering (QA) is widely used to evaluate the reasoning capabilities of large language models, yet most benchmarks focus on final answer correctness and overlook intermediate reasoning, especially in long multimodal documents. We introduce BRIDGE, a benchmark for multi-hop reasoning over long scientific papers that require integrating evidence across text, tables, and figures. The dataset supports both chain-like and fan-out structures and provides explicit multi-hop reasoning annotations for step-level evaluation beyond answer accuracy. Experiments with state-of-the-art LLMs and multimodal retrieval-augmented generation (RAG) systems reveal systematic deficiencies in evidence aggregation and grounding that remain hidden under conventional answer-only evaluation. BRIDGE provides a targeted testbed for diagnosing reasoning failures in long multimodal documents.
- Abstract(参考訳): マルチホップ質問応答 (Multi-hop question answering, QA) は、大規模言語モデルの推論能力を評価するために広く用いられているが、ほとんどのベンチマークは最終回答の正しさと、特に長いマルチモーダル文書における中間的推論の見落としに焦点を当てている。
BRIDGEは、テキスト、表、図形にまたがるエビデンスを統合する必要のある、長い科学論文に対するマルチホップ推論のためのベンチマークである。
このデータセットはチェーンライク構造とファンアウト構造の両方をサポートし、回答精度以上のステップレベルの評価のための明示的なマルチホップ推論アノテーションを提供する。
現状のLLMとマルチモーダル検索拡張生成システム(RAG)による実験は、従来の回答のみの評価の下で隠された証拠収集と根拠の体系的な欠陥を明らかにしている。
BRIDGEは、長いマルチモーダル文書の推論失敗を診断するためのターゲットテストベッドを提供する。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering [44.41273615523289]
マルチモーダルソース属性システムを評価するための最初のベンチマークであるMAVISを紹介する。
我々のデータセットは157Kの視覚的QAインスタンスで構成されており、各回答にはマルチモーダル文書を参照したファクトレベルの引用が注釈付けされている。
本研究では,情報性,接地性,流感の3次元に沿って細粒度自動測定値を作成し,人間の判断と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-11-15T10:14:59Z) - DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections [23.428084176322866]
本稿では,マルチモーダル,マルチドキュメント,マルチホップ質問応答のための大規模ベンチマークであるDocHop-QAを提案する。
DocHop-QAはドメインに依存しないもので、テキストパス、テーブル、構造的なレイアウトキューなど、さまざまな情報フォーマットが組み込まれている。
我々は,構造化インデックス予測,生成応答,マルチモーダル統合の4つのタスクを通してDocHop-QAを評価した。
論文 参考訳(メタデータ) (2025-08-20T08:17:45Z) - DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - MultiHoax: A Dataset of Multi-hop False-Premise Questions [10.301985230669684]
我々はMultiHoaxを紹介した。これは、複雑で多段階の推論タスクにおいて、偽の前提を扱う大規模言語モデルの性能を評価するためのベンチマークである。
我々のデータセットは7つの国と10の多様な知識カテゴリにまたがっており、ウィキペディアを主要な知識源としています。
実験によると、最先端のLLMは、異なる国、知識カテゴリ、マルチホップ推論タイプで偽の前提を検出するのに苦労している。
論文 参考訳(メタデータ) (2025-05-30T21:55:18Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。