論文の概要: MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21181v1
- Date: Thu, 29 Jan 2026 02:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.520478
- Title: MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
- Title(参考訳): MAD:多モーダル大言語モデルにおける多モーダル幻覚の緩和のためのモダリティ適応デコーディング
- Authors: Sangyun Chung, Se Yeon Kim, Youngchae Chee, Yong Man Ro,
- Abstract要約: MLLM(Multimodal Large Language Models)は、あるモダリティが他のモダリティに不適切な影響を及ぼし、製造された出力に繋がる、クロスモーダル幻覚に悩まされる。
本稿では,タスク要求に基づいて適応的にモダリティ固有のデコードブランチを重み付けするトレーニングフリーな手法である,モーダリティ適応デコード(MAD)を提案する。
提案手法は, 自己評価による明示的なモダリティ認識が, 既存のコントラスト復号法への原則的拡張として, 頑健なマルチモーダル推論に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 45.58164536222542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at \href{https://github.com/top-yun/MAD}{https://github.com/top-yun/MAD}
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、あるモダリティが他のモダリティに不適切な影響を及ぼし、製造された出力に繋がる、クロスモーダル幻覚に悩まされる。
これは、モダリティ-相互作用制御におけるより根本的な欠陥を露呈する。
そこで本研究では,タスク要求に基づいて,モダリティ固有のデコードブランチを適応的に重み付けするトレーニングフリーな手法である,モダリティ適応デコード(MAD)を提案する。
MADは、各タスクに必要なモダリティを問うことで、モデル固有のモダリティ関連性を自己評価する能力を活用している。
抽出されたモダリティ確率は、対照的なデコード分岐を適応的に重み付けし、モデルがクロスモーダル干渉を抑えながら関連する情報に集中できるようにする。
CMM と AVHBench に関する大規模な実験により、MAD は複数の音声・視覚言語モデル間の相互幻覚を著しく減少させる(ビデオLLaMA2-AV では 7.8 %、ビデオLLaMA2-AV では 2.0 %、Qwen2.5-Omni では 8.7 %、Qwen2.5-Omni では 4.7 % 改善)。
提案手法は, 自己評価による明示的なモダリティ認識が, 既存のコントラスト復号法への原則的拡張として, 頑健なマルチモーダル推論に不可欠であることを示す。
私たちのコードは \href{https://github.com/top-yun/MAD}{https://github.com/top-yun/MAD} で利用可能です。
関連論文リスト
- IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance [74.89810064807142]
Implicit Multimodal Guidance(IMG)は、新しい世代ベースのマルチモーダルアライメントフレームワークである。
IMGはミスアライメントを特定し、再アライメント目標をトレーニング可能な目標に定式化する。
IMGはフレキシブルなプラグアンドプレイアダプタとして機能し、ファインチューニングベースのアライメント手法をシームレスに強化する。
論文 参考訳(メタデータ) (2025-09-30T13:27:03Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.24397677839652]
マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。
モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。
VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文 参考訳(メタデータ) (2025-03-17T12:30:40Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。