論文の概要: SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07833v1
- Date: Sun, 08 Feb 2026 05:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.823974
- Title: SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models
- Title(参考訳): SPD-Faith Bench:マルチモーダル大言語モデルのためのチェーン・オブ・サートにおける忠実度診断と改善
- Authors: Weijiang Lv, Yaoxuan Feng, Xiaobo Xia, Jiayu Wang, Yan Jing, Wenchao Chen, Bo Chen,
- Abstract要約: 連鎖推論は多モーダルな大言語モデルの解釈可能性を改善するために広く用いられている。
それまでの研究は主に知覚の幻覚に焦点を合わせており、推論レベルは未発見のままである。
SPD-Faith Benchは、微細な画像差分推論に基づく診断ベンチマークである。
- 参考スコア(独自算出の注目度): 27.75481374496276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought reasoning is widely used to improve the interpretability of multimodal large language models (MLLMs), yet the faithfulness of the generated reasoning traces remains unclear. Prior work has mainly focused on perceptual hallucinations, leaving reasoning level unfaithfulness underexplored. To isolate faithfulness from linguistic priors, we introduce SPD-Faith Bench, a diagnostic benchmark based on fine-grained image difference reasoning that enforces explicit visual comparison. Evaluations on state-of-the-art MLLMs reveal two systematic failure modes, perceptual blindness and perception-reasoning dissociation. We trace these failures to decaying visual attention and representation shifts in the residual stream. Guided by this analysis, we propose SAGE, a train-free visual evidence-calibrated framework that improves visual routing and aligns reasoning with perception. Our results highlight the importance of explicitly evaluating faithfulness beyond response correctness. Our benchmark and codes are available at https://github.com/Johanson-colab/SPD-Faith-Bench.
- Abstract(参考訳): 連鎖推論は多モーダル大言語モデル(MLLM)の解釈可能性を改善するために広く用いられているが、生成した推論の忠実さはいまだ不明である。
それまでの研究は主に知覚の幻覚に焦点を合わせており、推論レベルは未発見のままである。
言語的先行概念から忠実さを分離するために,視覚的比較を明示する微細な画像差分推論に基づく診断ベンチマークであるSPD-Faith Benchを導入する。
最先端MLLMの評価では、知覚失明と知覚関連解離という2つの系統的な障害モードが示される。
残差ストリームにおける視覚的注意力の低下と表現のシフトにこれらの障害を辿る。
この分析で導かれたSAGEは、視覚的ルーティングを改善し、推論を知覚と整合させる、列車不要の視覚的エビデンス校正フレームワークである。
本結果は,回答の正しさ以上の忠実さを明確に評価することの重要性を強調した。
ベンチマークとコードはhttps://github.com/Johanson-colab/SPD-Faith-Bench.comで公開しています。
関連論文リスト
- Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection [58.82268659497348]
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
論文 参考訳(メタデータ) (2025-09-29T20:59:19Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models [43.465268635499754]
テストタイム計算は、拡張推論チェーンを生成するために、大きな言語モデルに権限を与えた。
世代が長くなるにつれて、モデルは画像付きコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。
論文 参考訳(メタデータ) (2025-05-23T05:08:40Z) - Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models [12.747507415841168]
本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の原因の直接的な介入でさえも、連鎖が「連鎖不規則性」を示すため、その効果を覆すことができないことが多い。
論文 参考訳(メタデータ) (2025-05-19T14:11:09Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。