論文の概要: MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2510.02790v1
- Date: Fri, 03 Oct 2025 07:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.306997
- Title: MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding
- Title(参考訳): MaskCD:イメージヘッドマズードコントラストデコードによるLVLM幻覚の緩和
- Authors: Jingyuan Deng, Yujiu Yang,
- Abstract要約: 大規模視覚言語モデル(LVLM)のための画像ヘッドMasked Contrastive Decoding(MaskCD)を提案する。
提案手法はLVLMの「画像ヘッド」を利用して,コントラストデコーディングのためのコントラストサンプルを構築する。
その結果,MaskCDは幻覚現象を効果的に軽減し,LVLMの汎用能力を保っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 53.068815533016355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have shown remarkable performance in visual-language understanding for downstream multimodal tasks. While their capabilities are improving, problems emerge simultaneously. Among those problems, the hallucinations have attracted much attention, which stands for the phenomenon where LVLMs generate contradictory content to their input visual and text contents. Many approaches have been proposed to deal with this issue, such as contrastive decoding and attention manipulation. However, contrastive decoding methods struggle in constructing appropriate contrastive samples, and attention manipulation methods are highly sensitive, lacking stability. In this work, we propose image head Masked Contrastive Decoding (MaskCD). Our approach utilizes the "image heads" in LVLMs, masking them to construct contrastive samples for contrastive decoding. We evaluated MaskCD on LLaVA-1.5-7b and Qwen-VL-7b, using various benchmarks such as CHAIR, POPE, AMBER and MME. The results demonstrate that MaskCD effectively alleviates the phenomenon of hallucinations and retains the general capabilities of LVLMs. Corresponding resources could be found at: https://github.com/Deng-Jingyuan/MaskCD .
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、下流マルチモーダルタスクに対する視覚言語理解において顕著な性能を示した。
彼らの能力は改善されているが、同時に問題が浮かび上がっている。
これらの問題の中で幻覚は多くの注目を集めており、これはLVLMが入力された視覚やテキストの内容に矛盾した内容を生成する現象である。
コントラストデコーディングやアテンション操作など、この問題に対処する多くのアプローチが提案されている。
しかし、コントラスト復号法は適切なコントラストサンプルの構築に苦慮し、アテンション操作法は非常に感度が高く、安定性に欠ける。
本研究では,画像ヘッドMasked Contrastive Decoding (MaskCD)を提案する。
提案手法では,LVLMの「画像ヘッド」を用いて,コントラストデコーディングのためのコントラストサンプルを構築する。
LLaVA-1.5-7b と Qwen-VL-7b の MaskCD を CHAIR,POPE,AMBER,MME などのベンチマークを用いて評価した。
その結果,MaskCDは幻覚現象を効果的に軽減し,LVLMの汎用能力を保っていることが明らかとなった。
対応するリソースは、https://github.com/Deng-Jingyuan/MaskCDで見つけることができる。
関連論文リスト
- Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding [17.902539922664563]
MLLM(Multimodal Large Language Models)における物体幻覚の研究と視覚的コントラストデコーディング(VCD)の改善について述べる。
我々は、自己監督型視覚変換器におけるオブジェクト中心の注意を利用する。
特に,有意な視覚的証拠を取り除き,不要なトークンを乱し,強いコントラスト信号を生成する補助的な視点を構築する。
論文 参考訳(メタデータ) (2026-02-12T09:04:28Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding [18.980167452015966]
我々はLayerCD(Layer Contrastive Decoding)と呼ばれる単純な手法を提案する。
LayerCDは、異なるレベルの視覚的特徴から生成された出力分布を対比することで幻覚を除去することを目的としている。
2つのベンチマークで広範な実験を行い、LayerCDが現在の最先端を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-29T17:59:16Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - MDSAM:Memory-Driven Sparse Attention Matrix for LVLMs Hallucination Mitigation [0.11704154007740833]
MDSAM(Memory-Driven Sparse Attention Matrix)は、各レイヤのイメージトークンに割り当てられた注意を動的にキャプチャし、洗練する、トレーニング不要のアプローチである。
MDSAMは注意パターンを記憶し、デコード中のアライメントを通じて更新を活性化し、幻覚を効果的に減少させ、関連する画像トークンに焦点をあてる。
論文 参考訳(メタデータ) (2025-06-21T09:49:16Z) - ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM [12.091189146069198]
MLLM(Multimodal Large Language Model)はしばしば幻覚に悩まされる。
彼らは部分的な手がかりを過度に評価し、誤った反応を生成する。
近年,視覚コントラスト復号法 (VCD) や命令コントラスト復号法 (ICD) などの手法が提案されている。
論文 参考訳(メタデータ) (2025-06-17T17:58:11Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models [39.9447198156097]
混合復号法 (Mixture of Decoding, MoD) は幻覚緩和のための新しいアプローチである。
画像トークンに対するモデルの注意の正しさを評価することによって、デコード戦略に適応する。
MoDは、複数の主要なベンチマークで既存のデコード手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-05-17T09:44:18Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。