論文の概要: Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2506.12609v1
- Date: Sat, 14 Jun 2025 19:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.582846
- Title: Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation
- Title(参考訳): すべてのトークンと頭が平等に重要であるわけではない:幻覚予防のためのデュアルレベル注意介入
- Authors: Lexiang Tang, Xianwei Zhuang, Bang Yang, Zhiyuan Hu, Hongxiang Li, Lu Ma, Jinghan Ru, Yuexian Zou,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、幅広いマルチモーダルタスクにおいて顕著な能力を示している。
視覚幻覚(VH)の傾向があり、しばしば自信はあるが誤った視覚内容の記述を生み出す。
提案するVisFlowは,推論中の注意パターンを直接操作することで,VHを緩和する,効率的でトレーニングのないフレームワークである。
- 参考スコア(独自算出の注目度): 46.3194503355054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have shown remarkable capabilities across a wide range of multimodal tasks. However, they remain prone to visual hallucination (VH), often producing confident but incorrect descriptions of visual content. We present VisFlow, an efficient and training-free framework designed to mitigate VH by directly manipulating attention patterns during inference. Through systematic analysis, we identify three key pathological attention behaviors in LVLMs: (1) weak visual grounding, where attention to visual tokens is insufficient or misallocated, over-focusing on uninformative regions; (2) language prior dominance, where excessive attention to prior response tokens reinforces autoregressive patterns and impairs multimodal alignment; (3) prompt redundancy, where many attention heads fixate on system prompt tokens, disrupting the integration of image, instruction, and response content. To address these issues, we introduce two inference-time interventions: token-level attention intervention (TAI), which enhances focus on salient visual content, and head-level attention intervention (HAI), which suppresses over-attention to prompt and nearby text tokens. VisFlow operates without additional training or model modifications. Extensive experiments across models and benchmarks show that VisFlow effectively reduces hallucinations and improves visual factuality, with negligible computational cost.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、幅広いマルチモーダルタスクにおいて顕著な能力を示している。
しかし、それらは視覚幻覚(VH)の傾向が強く、しばしば自信はあるものの視覚内容の誤った記述を生み出す。
提案するVisFlowは,推論中の注意パターンを直接操作することで,VHを緩和する,効率的でトレーニングのないフレームワークである。
組織的分析により,LVLMにおける3つの重要な病的注意行動が同定された。(1) 視覚的トークンに対する注意が不十分な,あるいは不定形領域に過度に焦点をあてている,(2) 先行応答トークンに対する過度な注意が自己回帰的パターンを補強し,マルチモーダルアライメントを損なう,(3) 視覚的基盤の弱さ,(2) 視覚的トークンへの注意が不適切な,あるいは不定形領域に過度に焦点を合わせている,の3つである。
これらの問題に対処するため,トークンレベルの注意介入 (TAI) と,テキストトークンへの過剰な注意を抑制するヘッドレベルの注意介入 (HAI) という2つの推論時間介入を導入する。
VisFlowは、追加のトレーニングやモデル修正なしで動作する。
モデルとベンチマークの広範な実験により、VisFlowは幻覚を効果的に減らし、無視可能な計算コストで視覚的事実性を改善することが示されている。
関連論文リスト
- CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression [6.838584336878126]
大型視覚言語モデル (LVLM) はしばしば幻覚に悩まされ、視覚的文脈と一致しないテキストを生成する。
推論時間介入による幻覚の低減を目的とした既存の手法は、遅延を著しく増加させる。
本稿では,タスクに依存しない注意誘導型頭部抑制戦略であるSPINについて述べる。
論文 参考訳(メタデータ) (2025-05-22T09:00:57Z) - Aligning Attention Distribution to Information Flow for Hallucination Mitigation in Large Vision-Language Models [11.385588803559733]
セマンティック表現に埋め込まれたコア情報を活用することにより,モデルの視覚的理解を高める。
5種類のLVLMを用いて3つの画像キャプションベンチマークを行い,幻覚の低減効果を実証した。
論文 参考訳(メタデータ) (2025-05-20T12:10:13Z) - The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering [42.09744951074433]
生成過程を通してトークンログのランキングを検証し,幻覚の内的ダイナミクスについて検討する。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2025-02-05T21:34:02Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。