論文の概要: MACD: Model-Aware Contrastive Decoding via Counterfactual Data
- arxiv url: http://arxiv.org/abs/2602.01740v1
- Date: Mon, 02 Feb 2026 07:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.974289
- Title: MACD: Model-Aware Contrastive Decoding via Counterfactual Data
- Title(参考訳): MACD: 対実データによるモデル認識コントラストデコーディング
- Authors: Qixin Xiao, Kun Zhou,
- Abstract要約: ビデオ言語モデル(Video-LLMs)は幻覚を起こす傾向があり、視覚的証拠が弱く、曖昧で、偏見があるときに、しばしば可塑性だが、根拠のないコンテンツを生成する。
モデル誘導対実データに基づくコントラストデコーディング(MACD)を提案し,モデル誘導対実データ構築とデコーディングを組み合わせた新しい推論手法を提案する。
我々のアプローチでは、ビデオLLM自身のフィードバックを用いて、幻覚に最も責任があるオブジェクト領域を特定し、任意のフレームや時間的修正ではなく、オブジェクトレベルでターゲットの反事実入力を生成する。
- 参考スコア(独自算出の注目度): 18.01829214707341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video language models (Video-LLMs) are prone to hallucinations, often generating plausible but ungrounded content when visual evidence is weak, ambiguous, or biased. Existing decoding methods, such as contrastive decoding (CD), rely on random perturbations to construct contrastive data for mitigating hallucination patterns. However, such a way is hard to control the visual cues that drive hallucination or well align with model weaknesses. We propose Model-aware Counterfactual Data based Contrastive Decoding (MACD), a new inference strategy that combines model-guided counterfactual construction with decoding. Our approach uses the Video-LLM's own feedback to identify object regions most responsible for hallucination, generating targeted counterfactual inputs at the object level rather than arbitrary frame or temporal modifications. These model-aware counterfactual data is then integrated into CD to enforce evidence-grounded token selection during decoding. Experiments on EventHallusion, MVBench, Perception-test and Video-MME show that MACD consistently reduces hallucination while maintaining or improving task accuracy across diverse Video-LLMs, including Qwen and InternVL families. The method is especially effective in challenging scenarios involving small, occluded, or co-occurring objects. Our code and data will be publicly released.
- Abstract(参考訳): ビデオ言語モデル(Video-LLMs)は幻覚を起こす傾向があり、視覚的証拠が弱く、曖昧で、偏見があるときに、しばしば可塑性だが、根拠のないコンテンツを生成する。
コントラスト復号法(CD)のような既存の復号法は、幻覚パターンを緩和するためのコントラストデータを構築するためにランダムな摂動に依存している。
しかし、このような方法で幻覚を誘発する視覚的手がかりを制御することは困難であり、モデルの弱点とよく一致している。
本稿では,モデル誘導型逆ファクト構築とデコードを組み合わせた新しい推論手法であるMACD(Model-Aware Counterfactual Data based Contrastive Decoding)を提案する。
我々のアプローチでは、ビデオLLM自身のフィードバックを用いて、幻覚に最も責任があるオブジェクト領域を特定し、任意のフレームや時間的修正ではなく、オブジェクトレベルでターゲットの反事実入力を生成する。
これらのモデル対応の偽造データをCDに統合し、復号中にエビデンス基底のトークン選択を強制する。
EventHallusion, MVBench, Perception-test, Video-MME の実験では,MACD は Qwen や InternVL など様々な Video-LLM ファミリーのタスク精度を維持したり改善したりしながら, 幻覚を一貫して減少させる。
この方法は、小さな、隠された、あるいは共起するオブジェクトを含む挑戦的なシナリオに特に効果的である。
コードとデータは公開されます。
関連論文リスト
- MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding [53.068815533016355]
大規模視覚言語モデル(LVLM)のための画像ヘッドMasked Contrastive Decoding(MaskCD)を提案する。
提案手法はLVLMの「画像ヘッド」を利用して,コントラストデコーディングのためのコントラストサンプルを構築する。
その結果,MaskCDは幻覚現象を効果的に軽減し,LVLMの汎用能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-03T07:59:16Z) - AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding [38.71842806548495]
本稿では,3モーダル相互作用をモデル化し,大言語モデル(MLLM)における幻覚を抑制するために,AVCD(Audio-Visual Contrastive Decoding)を提案する。
効率を向上させるために,モデルの予測に対する信頼度に基づいて不要な復号ステップをスキップするエントロピー誘導適応復号を導入する。
論文 参考訳(メタデータ) (2025-05-27T08:13:57Z) - Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models [39.9447198156097]
混合復号法 (Mixture of Decoding, MoD) は幻覚緩和のための新しいアプローチである。
画像トークンに対するモデルの注意の正しさを評価することによって、デコード戦略に適応する。
MoDは、複数の主要なベンチマークで既存のデコード手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-05-17T09:44:18Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。