論文の概要: Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2506.12609v1
- Date: Sat, 14 Jun 2025 19:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.582846
- Title: Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation
- Title(参考訳): すべてのトークンと頭が平等に重要であるわけではない:幻覚予防のためのデュアルレベル注意介入
- Authors: Lexiang Tang, Xianwei Zhuang, Bang Yang, Zhiyuan Hu, Hongxiang Li, Lu Ma, Jinghan Ru, Yuexian Zou,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、幅広いマルチモーダルタスクにおいて顕著な能力を示している。
視覚幻覚(VH)の傾向があり、しばしば自信はあるが誤った視覚内容の記述を生み出す。
提案するVisFlowは,推論中の注意パターンを直接操作することで,VHを緩和する,効率的でトレーニングのないフレームワークである。
- 参考スコア(独自算出の注目度): 46.3194503355054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have shown remarkable capabilities across a wide range of multimodal tasks. However, they remain prone to visual hallucination (VH), often producing confident but incorrect descriptions of visual content. We present VisFlow, an efficient and training-free framework designed to mitigate VH by directly manipulating attention patterns during inference. Through systematic analysis, we identify three key pathological attention behaviors in LVLMs: (1) weak visual grounding, where attention to visual tokens is insufficient or misallocated, over-focusing on uninformative regions; (2) language prior dominance, where excessive attention to prior response tokens reinforces autoregressive patterns and impairs multimodal alignment; (3) prompt redundancy, where many attention heads fixate on system prompt tokens, disrupting the integration of image, instruction, and response content. To address these issues, we introduce two inference-time interventions: token-level attention intervention (TAI), which enhances focus on salient visual content, and head-level attention intervention (HAI), which suppresses over-attention to prompt and nearby text tokens. VisFlow operates without additional training or model modifications. Extensive experiments across models and benchmarks show that VisFlow effectively reduces hallucinations and improves visual factuality, with negligible computational cost.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、幅広いマルチモーダルタスクにおいて顕著な能力を示している。
しかし、それらは視覚幻覚(VH)の傾向が強く、しばしば自信はあるものの視覚内容の誤った記述を生み出す。
提案するVisFlowは,推論中の注意パターンを直接操作することで,VHを緩和する,効率的でトレーニングのないフレームワークである。
組織的分析により,LVLMにおける3つの重要な病的注意行動が同定された。(1) 視覚的トークンに対する注意が不十分な,あるいは不定形領域に過度に焦点をあてている,(2) 先行応答トークンに対する過度な注意が自己回帰的パターンを補強し,マルチモーダルアライメントを損なう,(3) 視覚的基盤の弱さ,(2) 視覚的トークンへの注意が不適切な,あるいは不定形領域に過度に焦点を合わせている,の3つである。
これらの問題に対処するため,トークンレベルの注意介入 (TAI) と,テキストトークンへの過剰な注意を抑制するヘッドレベルの注意介入 (HAI) という2つの推論時間介入を導入する。
VisFlowは、追加のトレーニングやモデル修正なしで動作する。
モデルとベンチマークの広範な実験により、VisFlowは幻覚を効果的に減らし、無視可能な計算コストで視覚的事実性を改善することが示されている。
関連論文リスト
- The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering [42.09744951074433]
生成過程を通してトークンログのランキングを検証し,幻覚の内的ダイナミクスについて検討する。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2025-02-05T21:34:02Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。