論文の概要: MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.08228v1
- Date: Tue, 09 Dec 2025 04:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.805645
- Title: MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models
- Title(参考訳): MM-CoT:マルチモーダルモデルにおける視覚連鎖推論のためのベンチマーク
- Authors: Jusheng Zhang, Kaitong Cai, Xiaoyang Guo, Sidi Liu, Qinhan Lv, Ruiqi Chen, Jing Yang, Yijia Fan, Xiaofei Sun, Jian Wang, Ziliang Chen, Liang Lin, Keze Wang,
- Abstract要約: マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
- 参考スコア(独自算出の注目度): 49.32415342913976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform Chain-of-Thought (CoT) reasoning marks a major milestone for multimodal models (MMs), enabling them to solve complex visual reasoning problems. Yet a critical question remains: is such reasoning genuinely grounded in visual evidence and logically coherent? Existing benchmarks emphasize generation but neglect verification, i.e., the capacity to assess whether a reasoning chain is both visually consistent and logically valid. To fill this gap, we introduce MM-CoT, a diagnostic benchmark specifically designed to probe the visual grounding and logical coherence of CoT reasoning in MMs. Instead of generating free-form explanations, models must select the sole event chain that satisfies two orthogonal constraints: (i) visual consistency, ensuring all steps are anchored in observable evidence, and (ii) logical coherence, ensuring causal and commonsense validity. Adversarial distractors are engineered to violate one of these constraints, exposing distinct reasoning failures. We evaluate leading vision-language models on MM-CoT and find that even the most advanced systems struggle, revealing a sharp discrepancy between generative fluency and true reasoning fidelity. MM-CoT shows low correlation with existing benchmarks, confirming that it measures a unique combination of visual grounding and logical reasoning. This benchmark provides a foundation for developing future models that reason not just plausibly, but faithfully and coherently within the visual world.
- Abstract(参考訳): CoT(Chain-of-Thought)推論を行う能力は、マルチモーダルモデル(MM)にとって大きなマイルストーンであり、複雑な視覚的推論問題の解決を可能にする。
しかし、重要な疑問が残る:そのような推論は真に視覚的証拠に根ざし、論理的に一貫性があるか?
既存のベンチマークでは、生成は重視されるが、検証は無視される、すなわち、推論チェーンが視覚的に一貫性があり論理的に有効であるかどうかを評価する能力が強調されている。
このギャップを埋めるために、MMにおけるCoT推論の視覚的接地と論理的コヒーレンスを調査するための診断ベンチマークであるMM-CoTを導入する。
自由形式の説明を生成する代わりに、モデルは2つの直交制約を満たす唯一のイベントチェーンを選択する必要がある。
(i)視覚的整合性、すべてのステップが観察可能な証拠に固定されていること、
(二)論理的一貫性、因果的・常識的妥当性を確保すること。
敵の気晴らしは、これらの制約の1つに違反するように設計され、明確な推論の失敗が明らかになる。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
MM-CoTは既存のベンチマークと相関が低く、視覚的接地と論理的推論のユニークな組み合わせを計測していることを確認する。
このベンチマークは、論理的にだけでなく、視覚の世界内で忠実かつ一貫性のある未来のモデルを開発するための基盤を提供する。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better [59.29940512530982]
推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-21T10:11:17Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection [33.98107848014898]
PRISM-Benchはマルチモーダル大言語モデル(MLLM)を評価するために設計されたパズルに基づく視覚的課題のベンチマークである。
PRISM-Benchは、最終回答精度のみを測定する以前の評価とは異なり、診断タスクを導入している: 視覚パズルと、正確に1つのエラーを含むステップバイステップの連鎖が与えられた場合、モデルは最初の誤ったステップを特定する必要がある。
PRISM-Benchのパズルは多段階の記号的、幾何学的、類推的推論を必要とし、表面的なパターンマッチングに基づくショートカットに抵抗する。
論文 参考訳(メタデータ) (2025-10-27T17:57:52Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。