論文の概要: Conscious Gaze: Adaptive Attention Mechanisms for Hallucination Mitigation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.05546v1
- Date: Fri, 05 Dec 2025 09:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.975242
- Title: Conscious Gaze: Adaptive Attention Mechanisms for Hallucination Mitigation in Vision-Language Models
- Title(参考訳): Conscious Gaze:視覚・言語モデルにおける幻覚緩和のための適応的注意機構
- Authors: Weijue Bu, Guan Yuan, Guixian Zhang,
- Abstract要約: 本稿では,ゲーム理論の解釈可能性を動作可能な復号制御に変換する,学習不要な推論時間フレームワークを提案する。
Harsanyiインタラクション上に構築された認知デマンドセンサは、瞬時に視覚テキストのシナジーを推定する。
Focused Consensus 誘導モジュールは、テキスト先行に崩壊する前に、中間層注意を視覚トークンに選択的に向ける。
- 参考スコア(独自算出の注目度): 2.5597374953396126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (VLMs) often exhibit text inertia, where attention drifts from visual evidence toward linguistic priors, resulting in object hallucinations. Existing decoding strategies intervene only at the output logits and thus cannot correct internal reasoning drift, while recent internal-control methods based on heuristic head suppression or global steering vectors lack principled grounding. We introduce Conscious Gaze (CG-VLM), a training-free, inference-time framework that converts game-theoretic interpretability into actionable decoding control. A Cognitive Demand Sensor built on Harsanyi interactions estimates instantaneous vision-text synergy and identifies moments when visual grounding is necessary. Conditioned on this signal, a Focused Consensus Induction module selectively reorients mid-layer attention toward visual tokens before collapse into text priors. CG-VLM achieves state-of-the-art results on POPE and CHAIR across InstructBLIP, LLaVA, Qwen-VL, and mPLUG, while preserving general capabilities, demonstrating that token-level sensing enables precise, context-aware intervention without compromising foundational knowledge.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、しばしばテキスト慣性を示し、注意が視覚的証拠から言語的先行性へと流れ、結果として対象の幻覚をもたらす。
既存のデコード戦略は出力ロジットにのみ介入するため、内部推論のドリフトを補正することはできないが、ヒューリスティックなヘッド抑制やグローバルステアリングベクトルに基づく最近の内部制御手法では、原理的な基底が欠如している。
本稿では,ゲーム理論の解釈可能性を動作可能な復号制御に変換するトレーニング不要な推論時間フレームワークであるConscious Gaze(CG-VLM)を紹介する。
Harsanyiインタラクション上に構築された認知的欲求センサは、瞬時に視覚テキストのシナジーを推定し、視覚的接地が必要な瞬間を特定する。
この信号に基づいて、フォーカスド・コンセンサス誘導モジュールは、テキスト先行に崩壊する前に、中間層の注意を視覚トークンに選択的に向ける。
CG-VLMは、InstructBLIP、LLaVA、Qwen-VL、mPLUGにまたがるPOPEとCHAIRの最先端の成果を達成しつつ、一般的な能力を保ちながら、トークンレベルのセンシングが基礎知識を損なうことなく正確なコンテキスト認識の介入を可能にすることを実証する。
関連論文リスト
- V-ITI: Mitigating Hallucinations in Multimodal Large Language Models via Visual Inference-Time Intervention [39.81171248046778]
MLLM(Multimodal Large Language Models)は、幻覚に苦しむ多くの視覚言語タスクに優れる。
本稿では,Visual Neglect Detectorを統合した軽量な視覚推論時間介入フレームワークであるV-ITIを提案する。
V-ITIは、一般的なタスク性能を維持しながら、視覚関連幻覚を一貫して緩和する。
論文 参考訳(メタデータ) (2025-12-03T08:03:54Z) - Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight [49.882469110319086]
本稿では,DVF(Disentangled Visual Foresight)を特徴とする新しいフレームワークであるMantisを紹介する。
Mantisは、メタクエリと拡散トランスフォーマー(DiT)ヘッドを組み合わせて、バックボーンから視覚的予測を分離する。
マンティスは微調整後のLIBEROベンチマークで96.7%の成功率を達成した。
論文 参考訳(メタデータ) (2025-11-20T09:30:23Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。