論文の概要: Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs
- arxiv url: http://arxiv.org/abs/2602.09521v1
- Date: Tue, 10 Feb 2026 08:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.448864
- Title: Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs
- Title(参考訳): 細部への注意、真実へのロジット:LVLMにおける幻覚の軽減のための視覚的注意とロジットの増強
- Authors: Jingyi Wang, Fei Li, Rujie Liu,
- Abstract要約: 本稿では,タスク関連トークンの注意力を高めるための学習自由注意介入アルゴリズムを提案する。
視覚的トークンの寄与を高めるため,ビーム探索復号法に視覚的注意値を注入し,より高い視覚的注意力を持つ解を同定する。
- 参考スコア(独自算出の注目度): 12.578567672069601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Large Vision-Language Models (LVLMs) exhibit insufficient visual attention, leading to hallucinations. To alleviate this problem, some previous studies adjust and amplify visual attention. These methods present a limitation that boosting attention for all visual tokens inevitably increases attention to task irrelevant tokens. To tackle this challenge, we propose a training free attentional intervention algorithm to enhance the attention of task-relevant tokens based on the argument that task-relevant tokens generally demonstrate high visual-textual similarities. Specifically, the vision-text cross-attention submatrices, which represent visual-textual correlations, are extracted to construct the reweighting matrices to reallocate attention. Besides, to enhance the contribution of visual tokens, we inject visual attention values into the beam search decoding to identify solutions with higher visual attention. Extensive experiments demonstrate that this method significantly reduces hallucinations across mainstream LVLMs, while preserving the accuracy and coherence of generated content.
- Abstract(参考訳): 既存のLVLM(Large Vision-Language Models)では視覚的な注意が不足しており、幻覚に繋がる。
この問題を緩和するために、いくつかの以前の研究は視覚的注意を調整し増幅した。
これらの手法は、全ての視覚的トークンに対する注意を増大させる制限を示し、必然的にタスク非関連トークンへの注意を増大させる。
この課題に対処するために,タスク関連トークンが視覚的・テキスト的類似度が高いという主張に基づいて,タスク関連トークンの注意力を高めるための学習自由注意介入アルゴリズムを提案する。
具体的には、視覚とテクスチャの相関を表す視覚-テキストのクロスアテンション・サブマトリクスを抽出し、再重み付け行列を構築して注意を再配置する。
さらに、視覚的トークンの寄与を高めるために、ビーム探索復号法に視覚的注意値を注入し、より高い視覚的注意力を持つ解を識別する。
広汎な実験により、本手法は、生成したコンテンツの精度とコヒーレンスを保ちながら、主流のLVLMの幻覚を著しく低減することが示された。
関連論文リスト
- Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation [8.805397340243557]
視覚言語モデル (VLM) はしばしば幻覚、すなわち視覚入力では実証できない内容を生成する。
本稿では, Gaze Shift-Guided Cross-Modal Fusion Enhancement (GIFT) という手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T23:04:26Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation [46.3194503355054]
大規模視覚言語モデル(LVLM)は多様なマルチモーダルタスクにまたがる印象的な機能を示している。
視覚幻覚(VH)の影響を受けやすく、自信はあるが不正確な記述をしばしば生み出す。
推論中の注意パターンを直接調整することで幻覚を緩和するフレームワークであるVisFlowを紹介した。
論文 参考訳(メタデータ) (2025-06-14T19:10:22Z) - Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。