論文の概要: When Looking Is Not Enough: Visual Attention Structure Reveals Hallucination in MLLMs
- arxiv url: http://arxiv.org/abs/2605.11559v1
- Date: Tue, 12 May 2026 05:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.607586
- Title: When Looking Is Not Enough: Visual Attention Structure Reveals Hallucination in MLLMs
- Title(参考訳): 視覚の注意構造がMLLMの幻覚を浮き彫りにする
- Authors: Fanpu Cao, Xin Zou, Xuming Hu, Hui Xiong,
- Abstract要約: 本稿では,LaSCD(Laplacian-Spectral Contrastive Decoding)を提案する。
幻覚と一般的なマルチモーダルベンチマークの実験では、LaSCDは一般の能力を保ちながら、常に幻覚を減少させる。
- 参考スコア(独自算出の注目度): 43.42932571168595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have become a key interface for visual reasoning and grounded question answering, yet they remain vulnerable to visual hallucinations, where generated responses contradict image content or mention nonexistent objects. A central challenge is that hallucination is not always caused by a simple lack of visual attention: the model may still assign substantial attention mass to image tokens while internally drifting toward an incorrect answer. In this paper, we show that the high-frequency structure of visual attention, measured by layer-wise Laplacian energy, reveals both the layer where hallucinated preferences emerge and the layer where the ground-truth answer transiently recovers. Building on this finding, we propose LaSCD (Laplacian-Spectral Contrastive Decoding), a training-free decoding strategy that selects informative layers via Laplacian energy and remaps next-token logits in closed form. Experiments on hallucination and general multimodal benchmarks show that LaSCD consistently reduces hallucination while preserving general capabilities, highlighting its potential as a faithful decoding paradigm. The code is available at https://github.com/macovaseas/LaSCD.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚的推論や根拠付き質問応答において重要なインターフェースとなっているが、生成した応答が画像の内容と矛盾したり、存在しないオブジェクトを参照したりする視覚幻覚に弱いままである。
中心的な課題は、幻覚が必ずしも視覚的注意の欠如によって引き起こされるとは限らないことである。
本稿では,階層的にラプラシアエネルギーによって測定された視覚的注意の高頻度構造が,幻覚的嗜好が出現する層と,接地トラス応答が過渡的に回復する層の両方を明らかにする。
そこで本研究では,LaSCD(Laplacian-Spectral Contrastive Decoding)を提案する。
幻覚と一般的なマルチモーダルベンチマークの実験では、LaSCDは一般的な能力を保ちながら幻覚を一貫して減少させ、忠実な復号パラダイムとしての可能性を強調している。
コードはhttps://github.com/macovaseas/LaSCDで入手できる。
関連論文リスト
- VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering [5.541436522468184]
大規模視覚言語モデル (LVLM) は言語学的に流動的であるが、視覚的証拠とは矛盾する出力を生成する。
その結果、LVLMは、最終的な視覚アテンションマップがキーイメージオブジェクトに集中できない場合、幻覚を起こす傾向にあることがわかった。
VEGASは,視覚エンコーダの注意マップを言語モデルの中間層に統合し,キーイメージオブジェクトに集中できないトークンを適応的にステアリングする手法である。
論文 参考訳(メタデータ) (2025-12-12T23:33:50Z) - Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding [18.980167452015966]
我々はLayerCD(Layer Contrastive Decoding)と呼ばれる単純な手法を提案する。
LayerCDは、異なるレベルの視覚的特徴から生成された出力分布を対比することで幻覚を除去することを目的としている。
2つのベンチマークで広範な実験を行い、LayerCDが現在の最先端を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-29T17:59:16Z) - Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression [16.465703269782654]
大型視覚言語モデル (LVLM) はしばしば幻覚に悩まされ、視覚的文脈と一致しないテキストを生成する。
推論時間介入による幻覚の低減を目的とした既存の手法は、遅延を著しく増加させる。
本稿では,タスクに依存しない注意誘導型頭部抑制戦略であるSPINについて述べる。
論文 参考訳(メタデータ) (2025-05-22T09:00:57Z) - TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection [6.006482486396196]
本稿では,画像トークンに対する注意の低下による幻覚を軽減するために,時間的注意リアルタイム累積接続(TARAC)を提案する。
我々は、複数のモデルとデータセットにまたがってTARACを評価し、我々のアプローチが幻覚を著しく軽減することを示した。
論文 参考訳(メタデータ) (2025-04-05T07:57:11Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。