論文の概要: Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.17061v3
- Date: Tue, 10 Jun 2025 05:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.237951
- Title: Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models
- Title(参考訳): 復号の混合:大規模視覚言語モデルにおける幻覚を緩和するための注意喚起型適応復号戦略
- Authors: Xinlong Chen, Yuanxing Zhang, Qiang Liu, Junfei Wu, Fuzheng Zhang, Tieniu Tan,
- Abstract要約: 混合復号法 (Mixture of Decoding, MoD) は幻覚緩和のための新しいアプローチである。
画像トークンに対するモデルの注意の正しさを評価することによって、デコード戦略に適応する。
MoDは、複数の主要なベンチマークで既存のデコード手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 39.9447198156097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have exhibited impressive capabilities across various visual tasks, yet they remain hindered by the persistent challenge of hallucinations. To address this critical issue, we propose Mixture of Decoding (MoD), a novel approach for hallucination mitigation that dynamically adapts decoding strategies by evaluating the correctness of the model's attention on image tokens. Specifically, MoD measures the consistency between outputs generated from the original image tokens and those derived from the model's attended image tokens, to distinguish the correctness aforementioned. If the outputs are consistent, indicating correct attention, MoD employs a complementary strategy to amplify critical information. Conversely, if the outputs are inconsistent, suggesting erroneous attention, MoD utilizes a contrastive strategy to suppress misleading information. Extensive experiments demonstrate that MoD significantly outperforms existing decoding methods across multiple mainstream benchmarks, effectively mitigating hallucinations in LVLMs. The code is available at https://github.com/xlchen0205/MoD.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々な視覚的タスクにまたがる印象的な能力を示すが、幻覚の持続的な挑戦によって妨げられている。
この重要な問題に対処するために、画像トークンに対するモデルの注意の正しさを評価することによって、復号戦略を動的に適用する幻覚緩和の新しいアプローチであるMixture of Decoding (MoD)を提案する。
特に、MoDは、元の画像トークンから生成された出力とモデルの参加画像トークンから生成された出力との整合性を測定し、上記の正確性を識別する。
もし出力が一貫性があり、正しい注意を示すなら、MoDは重要な情報を増幅するために補完的な戦略を採用する。
逆に、出力が矛盾し、誤った注意を喚起すると、MoDは、誤った情報を抑えるために対照的な戦略を利用する。
大規模な実験により、MoDは複数の主要なベンチマークで既存の復号法を著しく上回り、LVLMの幻覚を効果的に緩和することを示した。
コードはhttps://github.com/xlchen0205/MoD.comで公開されている。
関連論文リスト
- Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding [5.71478837100808]
LVLM(Large Vision-Language Models)は、存在しないオブジェクトや既存のオブジェクトを誤って含むことによって、視覚的コンテンツを不正確に反映する記述を生成する。
本稿では,入力画像をサブイメージに分割し,アテンションマップを通じて重みを割り当てることでロジット分布を結合する新しい戦略であるEnsemble Decoding (ED)を提案する。
提案手法は,提案手法の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T06:35:43Z) - Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models [14.739801223002262]
LVLM(Large Vision-Language Model)は、画像を記述する際にも幻覚に悩まされ、存在しないオブジェクトを含む回答を生成する。
これらのモデルは、疑問に答えるために重要な情報を含まない無関係な画像トークンに過度に焦点をあてる傾向があることが報告されている。
本稿では,2つの異なる指示の下での注意重みの変化を比較することで,無関係なトークンを識別する命令適応型視覚注意(IAVA)アプローチを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:09:06Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。
提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文 参考訳(メタデータ) (2024-06-04T03:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。