論文の概要: VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering
- arxiv url: http://arxiv.org/abs/2512.12089v1
- Date: Fri, 12 Dec 2025 23:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.111631
- Title: VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering
- Title(参考訳): VEGAS:Vision-Encoder Attentiond Adaptive Steeringによる大規模視覚言語モデルにおける幻覚の緩和
- Authors: Zihu Wang, Boxun Xu, Yuxuan Xia, Peng Li,
- Abstract要約: 大規模視覚言語モデル (LVLM) は言語学的に流動的であるが、視覚的証拠とは矛盾する出力を生成する。
その結果、LVLMは、最終的な視覚アテンションマップがキーイメージオブジェクトに集中できない場合、幻覚を起こす傾向にあることがわかった。
VEGASは,視覚エンコーダの注意マップを言語モデルの中間層に統合し,キーイメージオブジェクトに集中できないトークンを適応的にステアリングする手法である。
- 参考スコア(独自算出の注目度): 5.541436522468184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (LVLMs) exhibit impressive ability to jointly reason over visual and textual inputs. However, they often produce outputs that are linguistically fluent but factually inconsistent with the visual evidence, i.e., they hallucinate. Despite growing efforts to mitigate such hallucinations, a key question remains: what form of visual attention can effectively suppress hallucinations during decoding? In this work, we provide a simple answer: the vision encoder's own attention map. We show that LVLMs tend to hallucinate when their final visual-attention maps fail to concentrate on key image objects, whereas the vision encoder's more concentrated attention maps substantially reduce hallucinations. To further investigate the cause, we analyze vision-text conflicts during decoding and find that these conflicts peak in the language model's middle layers. Injecting the vision encoder's attention maps into these layers effectively suppresses hallucinations. Building on these insights, we introduce VEGAS, a simple yet effective inference-time method that integrates the vision encoder's attention maps into the language model's mid-layers and adaptively steers tokens which fail to concentrate on key image objects. Extensive experiments across multiple benchmarks demonstrate that VEGAS consistently achieves state-of-the-art performance in reducing hallucinations.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)は、視覚とテキストの入力を共同で推論する優れた能力を示す。
しかし、彼らはしばしば、言語学的に流動的であるが、視覚的証拠、すなわち幻覚と現実的に矛盾するアウトプットを生成する。
このような幻覚を緩和する努力が増えているが、重要な疑問が残る: 復号時の幻覚を効果的に抑制できる視覚的注意の形式は何か?
本研究では,視覚エンコーダのアテンションマップの簡単な解法を提案する。
視覚エンコーダのより集中した注目マップは幻覚を著しく減少させるのに対し、LVLMは最終的な視覚的アテンションマップが主要画像オブジェクトに集中できない場合、幻覚を生じさせる傾向があることを示す。
この原因を更に調査するため,デコード中の視覚・テキストの衝突を分析し,言語モデルの中間層においてこれらの衝突がピークとなることを明らかにする。
これらの層に視覚エンコーダの注意マップを挿入すると、幻覚が効果的に抑制される。
これらの知見に基づいて,視覚エンコーダの注目マップを言語モデルの中間層に統合し,キーイメージオブジェクトに集中できないトークンを適応的にステアリングする,シンプルで効果的な推論時間手法であるVEGASを導入する。
複数のベンチマークにわたる大規模な実験により、VEGASは幻覚の低減において常に最先端のパフォーマンスを達成していることが示された。
関連論文リスト
- Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T03:40:05Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。