論文の概要: Spotlight and Shadow: Attention-Guided Dual-Anchor Introspective Decoding for MLLM Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2604.10071v1
- Date: Sat, 11 Apr 2026 07:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.822591
- Title: Spotlight and Shadow: Attention-Guided Dual-Anchor Introspective Decoding for MLLM Hallucination Mitigation
- Title(参考訳): スポットライトとシャドウ:MLLM幻覚軽減のための注意誘導デュアルアンカーイントロスペクティブデコード
- Authors: Yebo Wu, Han Jin, Zhijiang Guo, Li Li,
- Abstract要約: 本稿では,新しいコントラスト型デコーディングフレームワークであるDual-Anchor Introspective Decoding(DaID)を紹介する。
DaIDは、モデルの内的不一致をマイニングすることで、各トークン生成を動的に校正する。
- 参考スコア(独自算出の注目度): 15.138374724285917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable reasoning capabilities yet continue to suffer from hallucination, where generated text contradicts visual content. In this paper, we introduce Dual-Anchor Introspective Decoding (DaID), a novel contrastive decoding framework that dynamically calibrates each token generation by mining the model's internal perceptual discrepancies. Specifically, DaID identifies a Spotlight layer to amplify visual factual signals and a Shadow layer to suppress textual inertia. By leveraging visual attention distributions to guide this dual-anchor selection process, our method ensures precise, token-specific adaptation. Experimental results across multiple benchmarks and MLLMs demonstrate that DaID significantly mitigates hallucination while enhancing general reasoning capabilities.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、生成したテキストが視覚的内容と矛盾する幻覚に悩まされ続けている、顕著な推論能力を示している。
本稿では,モデルの内的不一致をマイニングすることで,各トークン生成を動的に校正する新しいコントラストデコーディングフレームワークであるDual-Anchor Introspective Decoding(DaID)を紹介する。
特に、DaIDは、視覚的事実信号を増幅するSpotlight層と、テキスト慣性を抑制するシャドウ層を識別する。
視覚的注意分布を利用して、このデュアルアンカー選択過程を導出することにより、正確なトークン固有の適応を保証できる。
複数のベンチマークやMLLMでの実験結果から,DAIDは一般的な推論能力を高めつつ幻覚を著しく軽減することが示された。
関連論文リスト
- Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding [18.980167452015966]
我々はLayerCD(Layer Contrastive Decoding)と呼ばれる単純な手法を提案する。
LayerCDは、異なるレベルの視覚的特徴から生成された出力分布を対比することで幻覚を除去することを目的としている。
2つのベンチマークで広範な実験を行い、LayerCDが現在の最先端を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-29T17:59:16Z) - D$^2$HScore: Reasoning-Aware Hallucination Detection via Semantic Breadth and Depth Analysis in LLMs [15.665202830841046]
この研究は、モデルアーキテクチャと生成ダイナミクスの観点から幻覚検出を再考する。
textbfD$2$HScore (Dispersion and Drift-based Hallucination Score) を提案する。
5つのオープンソースのLanguage Modelと5つの広く使用されているベンチマークの実験は、D$2$HScoreが既存のトレーニング不要のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-15T04:28:38Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。