論文の概要: MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2510.02790v1
- Date: Fri, 03 Oct 2025 07:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.306997
- Title: MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding
- Title(参考訳): MaskCD:イメージヘッドマズードコントラストデコードによるLVLM幻覚の緩和
- Authors: Jingyuan Deng, Yujiu Yang,
- Abstract要約: 大規模視覚言語モデル(LVLM)のための画像ヘッドMasked Contrastive Decoding(MaskCD)を提案する。
提案手法はLVLMの「画像ヘッド」を利用して,コントラストデコーディングのためのコントラストサンプルを構築する。
その結果,MaskCDは幻覚現象を効果的に軽減し,LVLMの汎用能力を保っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 53.068815533016355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have shown remarkable performance in visual-language understanding for downstream multimodal tasks. While their capabilities are improving, problems emerge simultaneously. Among those problems, the hallucinations have attracted much attention, which stands for the phenomenon where LVLMs generate contradictory content to their input visual and text contents. Many approaches have been proposed to deal with this issue, such as contrastive decoding and attention manipulation. However, contrastive decoding methods struggle in constructing appropriate contrastive samples, and attention manipulation methods are highly sensitive, lacking stability. In this work, we propose image head Masked Contrastive Decoding (MaskCD). Our approach utilizes the "image heads" in LVLMs, masking them to construct contrastive samples for contrastive decoding. We evaluated MaskCD on LLaVA-1.5-7b and Qwen-VL-7b, using various benchmarks such as CHAIR, POPE, AMBER and MME. The results demonstrate that MaskCD effectively alleviates the phenomenon of hallucinations and retains the general capabilities of LVLMs. Corresponding resources could be found at: https://github.com/Deng-Jingyuan/MaskCD .
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、下流マルチモーダルタスクに対する視覚言語理解において顕著な性能を示した。
彼らの能力は改善されているが、同時に問題が浮かび上がっている。
これらの問題の中で幻覚は多くの注目を集めており、これはLVLMが入力された視覚やテキストの内容に矛盾した内容を生成する現象である。
コントラストデコーディングやアテンション操作など、この問題に対処する多くのアプローチが提案されている。
しかし、コントラスト復号法は適切なコントラストサンプルの構築に苦慮し、アテンション操作法は非常に感度が高く、安定性に欠ける。
本研究では,画像ヘッドMasked Contrastive Decoding (MaskCD)を提案する。
提案手法では,LVLMの「画像ヘッド」を用いて,コントラストデコーディングのためのコントラストサンプルを構築する。
LLaVA-1.5-7b と Qwen-VL-7b の MaskCD を CHAIR,POPE,AMBER,MME などのベンチマークを用いて評価した。
その結果,MaskCDは幻覚現象を効果的に軽減し,LVLMの汎用能力を保っていることが明らかとなった。
対応するリソースは、https://github.com/Deng-Jingyuan/MaskCDで見つけることができる。
関連論文リスト
- Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding [18.980167452015966]
我々はLayerCD(Layer Contrastive Decoding)と呼ばれる単純な手法を提案する。
LayerCDは、異なるレベルの視覚的特徴から生成された出力分布を対比することで幻覚を除去することを目的としている。
2つのベンチマークで広範な実験を行い、LayerCDが現在の最先端を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-29T17:59:16Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM [12.091189146069198]
MLLM(Multimodal Large Language Model)はしばしば幻覚に悩まされる。
彼らは部分的な手がかりを過度に評価し、誤った反応を生成する。
近年,視覚コントラスト復号法 (VCD) や命令コントラスト復号法 (ICD) などの手法が提案されている。
論文 参考訳(メタデータ) (2025-06-17T17:58:11Z) - Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models [39.9447198156097]
混合復号法 (Mixture of Decoding, MoD) は幻覚緩和のための新しいアプローチである。
画像トークンに対するモデルの注意の正しさを評価することによって、デコード戦略に適応する。
MoDは、複数の主要なベンチマークで既存のデコード手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-05-17T09:44:18Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。