論文の概要: Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs
- arxiv url: http://arxiv.org/abs/2503.08342v1
- Date: Tue, 11 Mar 2025 11:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.747231
- Title: Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs
- Title(参考訳): アテンション・ルロケーション:MLLMのゼロコスト・制御可能な幻覚緩和を目指して
- Authors: Chongjun Tu, Peng Ye, Dongzhan Zhou, Lei Bai, Gang Yu, Tao Chen, Wanli Ouyang,
- Abstract要約: 約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
- 参考スコア(独自算出の注目度): 62.9348974370985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Large Language Models (MLLMs) stand out in various tasks but still struggle with hallucinations. While recent training-free mitigation methods mostly introduce additional inference overhead via retrospection strategy and contrastive decoding, we propose attention reallocation (AttnReal) to mitigate hallucinations with nearly zero extra cost. Our approach is motivated by the key observations that, MLLM's unreasonable attention distribution causes features to be dominated by historical output tokens, which further contributes to hallucinated responses because of the distribution gap between different token types. Based on the observations, AttnReal recycles excessive attention from output tokens and reallocates it to visual tokens, which reduces MLLM's reliance on language priors and ensures the decoding process depends more on the visual inputs. More interestingly, we find that, by controlling the intensity of AttnReal, we can achieve a wide-range trade-off between the response faithfulness and overall performance. Comprehensive results from different benchmarks validate the effectiveness of AttnReal across six open-source MLLMs and three decoding strategies.
- Abstract(参考訳): MLLM(Multi-Modal Large Language Models)は様々なタスクにおいて際立っているが、幻覚に苦慮している。
近年の訓練自由緩和法は, ほとんど余剰コストゼロで幻覚を緩和するための注意再配置(AttnReal)を提案する。
本手法は,MLLMの非合理的な注意分布が,異なるトークン間の分布ギャップのため,履歴出力トークンによって特徴が支配され,さらに幻覚応答に寄与する,という重要な観察結果に動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置する。
さらに興味深いことに、AttnRealの強度を制御することによって、反応の忠実度と全体的なパフォーマンスの幅広いトレードオフを達成できることが分かりました。
異なるベンチマークによる総合的な結果は、6つのオープンソースMLLMと3つのデコード戦略でAttnRealの有効性を検証する。
関連論文リスト
- Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。
LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。
物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-08-04T13:40:59Z) - Token Activation Map to Visually Explain Multimodal LLMs [23.774995444587667]
本稿では,文脈の干渉を軽減し,高品質なMLLM記述を実現するための因果推論手法を提案する。
本稿では,トークン間の相互作用を考慮に入れたToken Activation Map (TAM) と呼ぶ。
我々のTAM法は既存のSoTA法を著しく上回り、高品質な可視化結果を示す。
論文 参考訳(メタデータ) (2025-06-29T14:50:45Z) - Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding [33.33247964758369]
我々は,トークンインタラクションプロセスから直接適切なコンテキスト情報を抽出できると主張している。
復号化戦略における因果推論に着想を得て、因果マスクを活用してマルチモーダルトークン間の情報伝達を確立することを提案する。
FarSightは汎用的なプラグ・アンド・プレイ・デコード方式で,外部トークンからの注意干渉を低減する。
論文 参考訳(メタデータ) (2025-05-22T13:19:57Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality [20.41579586967349]
MLLM(Multimodal Large Language Models)は、産業と学術の両方に焦点を合わせている。
MLLMは視覚や言語に先立って導入されたバイアスに悩まされ、多モード幻覚を引き起こすことがある。
MLLMに構造因果モデリングを適用した因果推論フレームワークCausalMMを提案する。
論文 参考訳(メタデータ) (2024-10-07T06:45:22Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。