論文の概要: Conscious Gaze: Adaptive Attention Mechanisms for Hallucination Mitigation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.05546v1
- Date: Fri, 05 Dec 2025 09:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.975242
- Title: Conscious Gaze: Adaptive Attention Mechanisms for Hallucination Mitigation in Vision-Language Models
- Title(参考訳): Conscious Gaze:視覚・言語モデルにおける幻覚緩和のための適応的注意機構
- Authors: Weijue Bu, Guan Yuan, Guixian Zhang,
- Abstract要約: 本稿では,ゲーム理論の解釈可能性を動作可能な復号制御に変換する,学習不要な推論時間フレームワークを提案する。
Harsanyiインタラクション上に構築された認知デマンドセンサは、瞬時に視覚テキストのシナジーを推定する。
Focused Consensus 誘導モジュールは、テキスト先行に崩壊する前に、中間層注意を視覚トークンに選択的に向ける。
- 参考スコア(独自算出の注目度): 2.5597374953396126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (VLMs) often exhibit text inertia, where attention drifts from visual evidence toward linguistic priors, resulting in object hallucinations. Existing decoding strategies intervene only at the output logits and thus cannot correct internal reasoning drift, while recent internal-control methods based on heuristic head suppression or global steering vectors lack principled grounding. We introduce Conscious Gaze (CG-VLM), a training-free, inference-time framework that converts game-theoretic interpretability into actionable decoding control. A Cognitive Demand Sensor built on Harsanyi interactions estimates instantaneous vision-text synergy and identifies moments when visual grounding is necessary. Conditioned on this signal, a Focused Consensus Induction module selectively reorients mid-layer attention toward visual tokens before collapse into text priors. CG-VLM achieves state-of-the-art results on POPE and CHAIR across InstructBLIP, LLaVA, Qwen-VL, and mPLUG, while preserving general capabilities, demonstrating that token-level sensing enables precise, context-aware intervention without compromising foundational knowledge.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、しばしばテキスト慣性を示し、注意が視覚的証拠から言語的先行性へと流れ、結果として対象の幻覚をもたらす。
既存のデコード戦略は出力ロジットにのみ介入するため、内部推論のドリフトを補正することはできないが、ヒューリスティックなヘッド抑制やグローバルステアリングベクトルに基づく最近の内部制御手法では、原理的な基底が欠如している。
本稿では,ゲーム理論の解釈可能性を動作可能な復号制御に変換するトレーニング不要な推論時間フレームワークであるConscious Gaze(CG-VLM)を紹介する。
Harsanyiインタラクション上に構築された認知的欲求センサは、瞬時に視覚テキストのシナジーを推定し、視覚的接地が必要な瞬間を特定する。
この信号に基づいて、フォーカスド・コンセンサス誘導モジュールは、テキスト先行に崩壊する前に、中間層の注意を視覚トークンに選択的に向ける。
CG-VLMは、InstructBLIP、LLaVA、Qwen-VL、mPLUGにまたがるPOPEとCHAIRの最先端の成果を達成しつつ、一般的な能力を保ちながら、トークンレベルのセンシングが基礎知識を損なうことなく正確なコンテキスト認識の介入を可能にすることを実証する。
関連論文リスト
- Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Context-Aware Decoding for Faithful Vision-Language Generation [5.258492912374723]
視覚入力と矛盾する応答を生成する幻覚は、大きな視覚言語モデル(LVLM)の重要な限界である。
本研究では,幻覚を駆動するレイヤワイズ生成ダイナミクスを探索し,学習自由化戦略を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:50:57Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - V-ITI: Mitigating Hallucinations in Multimodal Large Language Models via Visual Inference-Time Intervention [39.81171248046778]
MLLM(Multimodal Large Language Models)は、幻覚に苦しむ多くの視覚言語タスクに優れる。
本稿では,Visual Neglect Detectorを統合した軽量な視覚推論時間介入フレームワークであるV-ITIを提案する。
V-ITIは、一般的なタスク性能を維持しながら、視覚関連幻覚を一貫して緩和する。
論文 参考訳(メタデータ) (2025-12-03T08:03:54Z) - Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight [49.882469110319086]
本稿では,DVF(Disentangled Visual Foresight)を特徴とする新しいフレームワークであるMantisを紹介する。
Mantisは、メタクエリと拡散トランスフォーマー(DiT)ヘッドを組み合わせて、バックボーンから視覚的予測を分離する。
マンティスは微調整後のLIBEROベンチマークで96.7%の成功率を達成した。
論文 参考訳(メタデータ) (2025-11-20T09:30:23Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。