論文の概要: SAGE: Sink-Aware Grounded Decoding for Multimodal Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2603.27898v1
- Date: Sun, 29 Mar 2026 22:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.165833
- Title: SAGE: Sink-Aware Grounded Decoding for Multimodal Hallucination Mitigation
- Title(参考訳): SAGE:マルチモーダルハロシン化除去のためのシンクアウェアグラウンドドデコーディング
- Authors: Tripti Shukla, Zsolt Kira,
- Abstract要約: 視覚言語モデル(VLM)はしばしば幻覚に悩まされ、視覚入力と矛盾するコンテンツを生成する。
SAGE, Sink-Aware Grounded Decoding frameworkは, 生成中の自己注意を動的に調節することで幻覚を緩和する。
本手法は,MSCOCOでは10.65%,AMBERでは7.19%の相対的改善を実現している。
- 参考スコア(独自算出の注目度): 33.381194425912234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) frequently suffer from hallucinations, generating content that is inconsistent with visual inputs. Existing methods typically address this problem through post-hoc filtering, additional training objectives, or external verification, but they do not intervene during the decoding process when hallucinations arise. In this work, we introduce SAGE, a Sink-Aware Grounded Decoding framework that mitigates hallucinations by dynamically modulating self-attention during generation. Hallucinations are strongly correlated with attention sink tokens - punctuation or function tokens that accumulate disproportionate attention despite carrying limited semantic content. SAGE leverages these tokens as anchors to monitor grounding reliability in real time. At each sink trigger, the method extracts semantic concepts from the generated sequence, estimates their visual grounding using both self-attention maps and gradient-based attribution, and measures their spatial agreement. Based on this signal, self-attention distributions are adaptively sharpened or broadened to reinforce grounded regions or suppress unreliable ones. Extensive experiments across diverse hallucination benchmarks demonstrate that SAGE consistently outperforms existing decoding strategies, achieving substantial reductions in hallucination while preserving descriptive coverage, without requiring model retraining or architectural modifications. Our method achieves an average relative improvement of 10.65% on MSCOCO and 7.19% on AMBER across diverse VLM architectures, demonstrating consistent gains in hallucination mitigation.
- Abstract(参考訳): 視覚言語モデル(VLM)はしばしば幻覚に悩まされ、視覚入力と矛盾するコンテンツを生成する。
既存の手法は通常、ポストホックフィルタリング、追加の訓練目的、または外部の検証を通じてこの問題に対処するが、幻覚発生時の復号プロセスの間は介入しない。
本研究では,SAGE(Sink-Aware Grounded Decoding)フレームワークを紹介し,生成中の自己意識を動的に調節することで幻覚を緩和する。
幻覚は注意シンクトークン(限定的な意味的内容を持つにもかかわらず不均等な注意を蓄積する句や関数トークン)と強く相関している。
SAGEはこれらのトークンをアンカーとして利用し、グラウンドの信頼性をリアルタイムで監視する。
各シンクトリガにおいて、生成されたシーケンスから意味概念を抽出し、自己アテンションマップと勾配に基づく属性の両方を用いて視覚的グラウンドを推定し、空間的一致を測定する。
この信号に基づいて、自己注意分布を適応的に鋭くしたり、拡大させたりして、接地領域を強化したり、信頼できない領域を抑える。
さまざまな幻覚ベンチマークの広範な実験は、SAGEが既存の復号化戦略を一貫して上回り、モデル再構成やアーキテクチャ修正を必要とせず、記述的カバレッジを維持しながら幻覚の大幅な削減を実現していることを示している。
MSCOCOでは10.65%,AMBERでは7.19%の相対的改善を実現し,幻覚の緩和に一貫した効果を示した。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - Context-Aware Decoding for Faithful Vision-Language Generation [5.258492912374723]
視覚入力と矛盾する応答を生成する幻覚は、大きな視覚言語モデル(LVLM)の重要な限界である。
本研究では,幻覚を駆動するレイヤワイズ生成ダイナミクスを探索し,学習自由化戦略を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:50:57Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。