論文の概要: AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2505.20862v1
- Date: Tue, 27 May 2025 08:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.497062
- Title: AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding
- Title(参考訳): AVCD:コントラストデコーディングによる視覚的大言語モデルにおける幻覚の緩和
- Authors: Chaeyoung Jung, Youngjoon Jang, Joon Son Chung,
- Abstract要約: 本稿では,3モーダル相互作用をモデル化し,大言語モデル(MLLM)における幻覚を抑制するために,AVCD(Audio-Visual Contrastive Decoding)を提案する。
効率を向上させるために,モデルの予測に対する信頼度に基づいて不要な復号ステップをスキップするエントロピー誘導適応復号を導入する。
- 参考スコア(独自算出の注目度): 14.515296731166721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination remains a major challenge in multimodal large language models (MLLMs). To address this, various contrastive decoding (CD) methods have been proposed that contrasts original logits with hallucinated logits generated from perturbed inputs. While CD has shown promise in vision-language models (VLMs), it is not well-suited for AV-LLMs, where hallucinations often emerge from both unimodal and cross-modal combinations involving audio, video, and language. These intricate interactions call for a more adaptive and modality-aware decoding strategy. In this paper, we propose Audio-Visual Contrastive Decoding (AVCD)-a novel, training-free decoding framework designed to model trimodal interactions and suppress modality-induced hallucinations in AV-LLMs. Unlike previous CD methods in VLMs that corrupt a fixed modality, AVCD leverages attention distributions to dynamically identify less dominant modalities and applies attentive masking to generate perturbed output logits. To support CD in a trimodal setting, we also reformulate the original CD framework to jointly handle audio, visual, and textual inputs. Finally, to improve efficiency, we introduce entropy-guided adaptive decoding, which selectively skips unnecessary decoding steps based on the model's confidence in its predictions. Extensive experiments demonstrate that AVCD consistently outperforms existing decoding methods. Especially, on the AVHBench dataset, it improves accuracy by 6% for VideoLLaMA2 and 11% for video-SALMONN, demonstrating strong robustness and generalizability.
- Abstract(参考訳): 幻覚は、マルチモーダル大言語モデル(MLLM)において依然として大きな課題である。
これを解決するために、様々なコントラスト復号法 (CD) が提案されている。
CDはヴィジュアル言語モデル(VLM)において有望であるが、オーディオ、ビデオ、言語を含む非モーダルとクロスモーダルの組み合わせから幻覚が生まれるAV-LLMには適していない。
これらの複雑な相互作用は、より適応的でモダリティに配慮した復号戦略を要求する。
本稿では,3モーダル相互作用をモデル化し,AV-LLMにおけるモダリティによる幻覚を抑制するために設計された,新しい学習自由なデコーディングフレームワークであるAVCDを提案する。
固定モダリティを損なうVLMの従来のCD法とは異なり、AVCDは注意分布を利用して、より支配的でないモダリティを動的に識別し、摂動出力ロジットを生成するために注意マスクを適用する。
トリモーダル環境でCDをサポートするため、オリジナルCDフレームワークを再構成し、音声、視覚、テキスト入力を共同で処理する。
最後に、効率を向上させるためにエントロピー誘導適応復号法を導入し、モデルの予測に対する信頼度に基づいて不要復号法を選択的にスキップする。
大規模な実験により、AVCDは既存の復号法より一貫して優れていることが示された。
特にAVHBenchデータセットでは、VideoLLaMA2では6%、Video-SALMONNでは11%の精度向上を実現し、堅牢性と一般化性を示している。
関連論文リスト
- Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。