論文の概要: Multimodal Fact-Level Attribution for Verifiable Reasoning
- arxiv url: http://arxiv.org/abs/2602.11509v1
- Date: Thu, 12 Feb 2026 03:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.613204
- Title: Multimodal Fact-Level Attribution for Verifiable Reasoning
- Title(参考訳): 検証可能な推論のためのマルチモーダルFact-Level属性
- Authors: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
- 参考スコア(独自算出の注目度): 80.60864342985748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、多段階推論と長文生成を含む現実的なタスクにますます使われており、信頼性には不均一な入力源におけるモデル出力の基底化と、個々の事実的クレームの検証が必要である。
しかし、既存のマルチモーダルグラウンドベンチマークと評価手法は、単純化された観察に基づくシナリオや限られたモダリティに焦点を当てており、複雑なマルチモーダル推論における帰属性の評価に失敗している。
我々は,直接観測以上の推論を必要とする設定において,ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAt(Multimodal Reasoning with Grounded Attribution)を紹介する。
ビデオ、音声、その他のモダリティにまたがる入力が与えられた場合、MRGAtは、各引用がモダリティと時間セグメントの両方を規定する明確な推論と正確な引用で答えを生成するモデルを必要とする。
信頼性評価を実現するために,人間の判断と強く相関する自動評価フレームワークを導入する。
人間と自動スコアのベンチマークにより、強力なMLLMでさえ正しい推論にもかかわらず、しばしば幻覚を呈することが明らかとなった。
さらに, 推論深度を増大させる, 構造的接地を強制するといった重要なトレードオフは, しばしば精度を低下させ, 内部推論と検証可能な帰属の間の大きなギャップを浮き彫りにする。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - MMLU-Reason: Benchmarking Multi-Task Multi-modal Language Understanding and Reasoning [40.55833679660528]
我々は,マルチモーダル推論を明示的思考で厳格に評価する新しいベンチマークMMLU-Reasonを紹介する。
MMLU-Reasonは1)記号深度とマルチホップ要求の6つの異なる推論タイプにまたがる1,083の質問の高拡散データセットからなる。
全体として、MMLU-Reasonは、次世代のマルチモーダル推論システムを評価し、比較し、改善するためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-05-22T09:41:55Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。