論文の概要: Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.10219v1
- Date: Sat, 11 Apr 2026 13:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.909798
- Title: Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models
- Title(参考訳): 認知的特徴点と視覚的アンコリング:マルチモーダル推論モデルにおける幻覚の発見と再現
- Authors: Zhe Qian, Yanbiao Ma, Zhuohan Ouyang, Zhonghua Wang, Zhongxing Xu, Fei Luo, Xinyu Liu, Zongyuan Ge, Yike Guo, Jungong Han,
- Abstract要約: 幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
- 参考スコア(独自算出の注目度): 65.57985131861399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Reasoning Models (MLRMs) have achieved remarkable strides in visual reasoning through test time compute scaling, yet long chain reasoning remains prone to hallucinations. We identify a concerning phenomenon termed the Reasoning Vision Truth Disconnect (RVTD): hallucinations are strongly correlated with cognitive bifurcation points that often exhibit high entropy states. We attribute this vulnerability to a breakdown in visual semantic anchoring, localized within the network's intermediate layers; specifically, during these high uncertainty transitions, the model fails to query visual evidence, reverting instead to language priors. Consequently, we advocate a shift from solely outcome level supervision to augmenting it with fine grained internal attention guidance. To this end, we propose V-STAR (Visual Structural Training with Attention Reinforcement), a lightweight, holistic training paradigm designed to internalize visually aware reasoning capabilities. Central to our approach is the Hierarchical Visual Attention Reward (HVAR), integrated within the GRPO framework. Upon detecting high entropy states, this mechanism dynamically incentivizes visual attention across critical intermediate layers, thereby anchoring the reasoning process back to the visual input. Furthermore, we introduce the Forced Reflection Mechanism (FRM), a trajectory editing strategy that disrupts cognitive inertia by triggering reflection around high entropy cognitive bifurcation points and encouraging verification of subsequent steps against the visual input, thereby translating external debiasing interventions into an intrinsic capability for hallucination mitigation.
- Abstract(参考訳): MLRM(Multimodal Large Reasoning Models)は、テスト時間計算のスケーリングを通じて視覚的推論において顕著な進歩を遂げているが、長い連鎖推論は幻覚の傾向にある。
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
この脆弱性は、ネットワークの中間層にローカライズされた視覚的セマンティックアンカリングの破壊によるものと考えられています。
その結果,結果レベルの監督のみから,詳細な内部的注意喚起による強化へのシフトが唱えられた。
この目的のために,視覚的に認識される推論能力の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STAR(Visual Structure Training with Attention Reinforcement)を提案する。
私たちのアプローチの中心は階層型視覚注意後退(HVAR)であり、GRPOフレームワークに組み込まれています。
高エントロピー状態を検出すると、この機構は臨界中間層をまたいで視覚的注意を動的に刺激し、推論プロセスを視覚入力に戻す。
さらに,高エントロピー認知分岐点の周囲の反射を誘発し,視覚入力に対するその後のステップの検証を促すことにより,認知慣性を阻害するトラジェクトリ・リフレクション・メカニズム (FRM) を導入し,外的脱ベンション介入を幻覚軽減の本質的な能力に翻訳する。
関連論文リスト
- Focus Matters: Phase-Aware Suppression for Hallucination in Vision-Language Models [8.304027910542446]
大規模視覚言語モデル(LVLM)における視覚エンコーダの内部的注意ダイナミクスについて検討する。
分析の結果,幻覚の挙動は集中期において注目度が低いトークンに特に敏感であることが判明した。
本稿では、フォーカスフェーズにおいて、このようなトークンを選択的に抑制する軽量な推論時間介入を提案する。
論文 参考訳(メタデータ) (2026-04-04T02:46:58Z) - Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation [50.51650162235191]
本稿では,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る訓練のない慣性認識型視覚興奮(IVE)法を提案する。
IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効である。
論文 参考訳(メタデータ) (2026-04-02T12:51:07Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。