論文の概要: ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM
- arxiv url: http://arxiv.org/abs/2506.14766v1
- Date: Tue, 17 Jun 2025 17:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.604197
- Title: ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM
- Title(参考訳): ASCD:MLLMにおける幻覚抑制のための注意制御可能なコントラストデコーディング
- Authors: Yujun Wang, Jinhe Bi, Yunpu Ma, Soeren Pirk,
- Abstract要約: MLLM(Multimodal Large Language Model)はしばしば幻覚に悩まされる。
彼らは部分的な手がかりを過度に評価し、誤った反応を生成する。
近年,視覚コントラスト復号法 (VCD) や命令コントラスト復号法 (ICD) などの手法が提案されている。
- 参考スコア(独自算出の注目度): 12.091189146069198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Model (MLLM) often suffer from hallucinations. They over-rely on partial cues and generate incorrect responses. Recently, methods like Visual Contrastive Decoding (VCD) and Instruction Contrastive Decoding (ICD) have been proposed to mitigate hallucinations by contrasting predictions from perturbed or negatively prefixed inputs against original outputs. In this work, we uncover that methods like VCD and ICD fundamentally influence internal attention dynamics of the model. This observation suggests that their effectiveness may not stem merely from surface-level modifications to logits but from deeper shifts in attention distribution. Inspired by this insight, we propose an attention-steerable contrastive decoding framework that directly intervenes in attention mechanisms of the model to offer a more principled approach to mitigating hallucinations. Our experiments across multiple MLLM architectures and diverse decoding methods demonstrate that our approach significantly reduces hallucinations and improves the performance on benchmarks such as POPE, CHAIR, and MMHal-Bench, while simultaneously enhancing performance on standard VQA benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Model)はしばしば幻覚に悩まされる。
彼らは部分的な手がかりを過度に評価し、誤った反応を生成する。
近年,視覚コントラスト復号法 (VCD) や命令コントラスト復号法 (ICD) などの手法が提案されている。
本研究では, VCD や ICD などの手法がモデル内部の注意力学に根本的に影響していることを明らかにする。
この観察結果から,ロジットの表面改質だけでなく,注目分布のより深い変化による効果が示唆された。
この知見に触発されて,より原理的な幻覚の緩和手法を提供するために,モデルの注意機構に直接介入する,注意制御可能なコントラスト的復号化フレームワークを提案する。
複数のMLLMアーキテクチャと多種多様な復号化手法を用いた実験により,本手法は幻覚を著しく低減し,POPE,CHAIR,MMHal-Benchなどのベンチマークの性能を向上させるとともに,標準VQAベンチマークの性能を同時に向上することを示した。
関連論文リスト
- Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality [20.41579586967349]
MLLM(Multimodal Large Language Models)は、産業と学術の両方に焦点を合わせている。
MLLMは視覚や言語に先立って導入されたバイアスに悩まされ、多モード幻覚を引き起こすことがある。
MLLMに構造因果モデリングを適用した因果推論フレームワークCausalMMを提案する。
論文 参考訳(メタデータ) (2024-10-07T06:45:22Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。