論文の概要: Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2604.01989v1
- Date: Thu, 02 Apr 2026 12:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.793239
- Title: Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation
- Title(参考訳): 休息時の注意:認知幻覚軽減のための視覚的慣性を破る
- Authors: Boyang Gong, Yu Zheng, Fanye Kong, Jie Zhou, Jiwen Lu,
- Abstract要約: 本稿では,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る訓練のない慣性認識型視覚興奮(IVE)法を提案する。
IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効である。
- 参考スコア(独自算出の注目度): 50.51650162235191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Like a body at rest that stays at rest, we find that visual attention in multimodal large language models (MLLMs) exhibits pronounced inertia, remaining largely static once settled during early decoding steps and failing to support the compositional understanding required for cognitive inference. While existing hallucination mitigation methods mainly target perceptual hallucinations concerning object existence or attributes, they remain inadequate for such cognitive hallucinations that require inter-object relational deduction. Through token-wise attention analysis, we identify this visual inertia as a key factor: attention to semantically critical regions remains persistently focused and fails to dynamically support relational inference. We thereby propose a training-free Inertia-aware Visual Excitation (IVE) method that breaks this inertial pattern by modeling cognitive inference as the dynamic responsiveness of visual attention. Specifically, IVE selects visual tokens that are dynamically emerging relative to historical attention trends while distinguishing tokens exhibiting inertial behavior. To further facilitate compositional inference, IVE introduces an inertia-aware penalty that discourages over-concentration and limits the persistence of attention within localized regions. Extensive experiments show that IVE is effective across various base MLLMs and multiple hallucination benchmarks, particularly for cognitive hallucinations.
- Abstract(参考訳): 休息状態にある身体のように、マルチモーダルな大規模言語モデル(MLLM)の視覚的注意は、慣性を示す。
既存の幻覚緩和法は主に物体の存在や属性に関する知覚幻覚を対象とするが、それらは対象間の関係推論を必要とする認知幻覚には不十分である。
トークン単位の注意分析により、この視覚的慣性は重要な要素として認識され、意味的に重要な領域への注意は引き続き集中し続け、リレーショナル推論を動的に支援することができない。
そこで我々は,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る,トレーニング不要な慣性認識型視覚興奮(IVE)法を提案する。
具体的には,慣性行動を示すトークンを識別しながら,歴史的注目傾向に対して動的に出現する視覚トークンを選択する。
構成推論をより容易にするために、IVEは過度な集中を防ぎ、局所的な領域における注意の持続性を制限する慣性認識のペナルティを導入する。
広範囲な実験により、IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効であることが示されている。
関連論文リスト
- Segmentation-Based Attention Entropy: Detecting and Mitigating Object Hallucinations in Large Vision-Language Models [9.388076929154673]
LVLM(Large Vision-Language Models)は多くのマルチモーダルタスクにおいて高い性能を達成するが、オブジェクト幻覚は信頼性を著しく損なう。
現存する研究の多くは、過度に強い言語に幻覚をもたらし、視覚的根拠が不十分なテキストモダリティに焦点を当てている。
本研究では,意味的セグメンテーションを利用してオブジェクトレベルの意味空間における視覚的注意の不確かさを定量化する注意エントロピー(SAE)を提案する。
論文 参考訳(メタデータ) (2026-03-17T14:19:22Z) - Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation [46.3194503355054]
大規模視覚言語モデル(LVLM)は多様なマルチモーダルタスクにまたがる印象的な機能を示している。
視覚幻覚(VH)の影響を受けやすく、自信はあるが不正確な記述をしばしば生み出す。
推論中の注意パターンを直接調整することで幻覚を緩和するフレームワークであるVisFlowを紹介した。
論文 参考訳(メタデータ) (2025-06-14T19:10:22Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models [69.79709804046325]
視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
論文 参考訳(メタデータ) (2024-06-24T08:42:42Z) - Shifting Focus with HCEye: Exploring the Dynamics of Visual Highlighting and Cognitive Load on User Attention and Saliency Prediction [3.2873782624127834]
本稿では,視覚強調(永続的・動的)と両タスクによる認知負荷が視線行動に及ぼす影響について検討する。
認知負荷の異なる場合、最先端のサリエンシモデルにより、その性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-22T14:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。