論文の概要: Hallucination Begins Where Saliency Drops
- arxiv url: http://arxiv.org/abs/2601.20279v1
- Date: Wed, 28 Jan 2026 05:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.788122
- Title: Hallucination Begins Where Saliency Drops
- Title(参考訳): 幻覚は塩分濃度が低下する場所にある
- Authors: Xiaofeng Zhang, Yuanchao Zhu, Chaochen Gu, Xiaosong Yuan, Qiyan Zhao, Jiawei Cao, Feilong Tang, Sinan Fan, Yaomin Shen, Chen Shen, Hao Tang,
- Abstract要約: 幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 18.189047289404325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies have examined attention dynamics in large vision-language models (LVLMs) to detect hallucinations. However, existing approaches remain limited in reliably distinguishing hallucinated from factually grounded outputs, as they rely solely on forward-pass attention patterns and neglect gradient-based signals that reveal how token influence propagates through the network. To bridge this gap, we introduce LVLMs-Saliency, a gradient-aware diagnostic framework that quantifies the visual grounding strength of each output token by fusing attention weights with their input gradients. Our analysis uncovers a decisive pattern: hallucinations frequently arise when preceding output tokens exhibit low saliency toward the prediction of the next token, signaling a breakdown in contextual memory retention. Leveraging this insight, we propose a dual-mechanism inference-time framework to mitigate hallucinations: (1) Saliency-Guided Rejection Sampling (SGRS), which dynamically filters candidate tokens during autoregressive decoding by rejecting those whose saliency falls below a context-adaptive threshold, thereby preventing coherence-breaking tokens from entering the output sequence; and (2) Local Coherence Reinforcement (LocoRE), a lightweight, plug-and-play module that strengthens attention from the current token to its most recent predecessors, actively counteracting the contextual forgetting behavior identified by LVLMs-Saliency. Extensive experiments across multiple LVLMs demonstrate that our method significantly reduces hallucination rates while preserving fluency and task performance, offering a robust and interpretable solution for enhancing model reliability. Code is available at: https://github.com/zhangbaijin/LVLMs-Saliency
- Abstract(参考訳): 近年,幻覚を検出するために,大規模視覚言語モデル(LVLM)の注意動態を検討した。
しかし、既存のアプローチは、トークンの影響がネットワークを通してどのように伝播するかを明らかにするために、フォワードパスの注意パターンや勾配に基づく信号にのみ依存するため、事実に基づく出力と幻覚的出力を確実に区別することに制限されている。
このギャップを埋めるために,各出力トークンの視覚的接地強度を評価できる勾配対応診断フレームワークであるLVLMs-Saliencyを導入する。
先行する出力トークンが次のトークンの予測に対して低い正当性を示し、文脈記憶保持の低下を示すと、幻覚が頻繁に発生する。
この知見を生かして,(1)自己回帰的復号中に候補トークンを動的にフィルタリングするSGRS(Saliency-Guided Rejection Sampling)と,(2)LVLMs-Saliencyによって認識されるコンテキスト的忘れ行動に対して,現在のトークンから注目度を高める軽量なプラグイン・アンド・プレイモジュールであるLocoREを提案する。
複数のLVLMを対象とした広範囲な実験により,本手法は流速とタスク性能を保ちながら幻覚率を著しく低減し,モデル信頼性を高めるための堅牢で解釈可能なソリューションを提供することを示した。
コードは、https://github.com/zhangbaijin/LVLMs-Saliency.comで入手できる。
関連論文リスト
- Context-Aware Decoding for Faithful Vision-Language Generation [5.258492912374723]
視覚入力と矛盾する応答を生成する幻覚は、大きな視覚言語モデル(LVLM)の重要な限界である。
本研究では,幻覚を駆動するレイヤワイズ生成ダイナミクスを探索し,学習自由化戦略を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:50:57Z) - FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering [14.550872089352943]
FaithSCANは視覚言語モデルの豊富な内部信号を利用して幻覚を検出する軽量ネットワークである。
本稿では,LLM-as-a-JudgeパラダイムをVQA幻覚に拡張し,モデル依存型監視信号の自動生成のための低コスト戦略を提案する。
深い分析により、幻覚は視覚知覚、相互モーダル推論、言語復号における系統的な内部状態の変化から生じることが示された。
論文 参考訳(メタデータ) (2026-01-01T09:19:39Z) - Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文 参考訳(メタデータ) (2024-08-04T13:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。