論文の概要: MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization
- arxiv url: http://arxiv.org/abs/2603.03192v1
- Date: Tue, 03 Mar 2026 17:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.901182
- Title: MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization
- Title(参考訳): MoD-DPO:Modality Decoupled Preference Optimization を用いたOmni LLMにおけるクロスモーダル幻覚の緩和に向けて
- Authors: Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani,
- Abstract要約: オームニLLMにおけるモーダリティグラウンドリングを改善するためのモーダリティデカップリング直接選好最適化(MoD-DPO)を提案する。
MoD-DPOは、無関係なモダリティにおける汚職への不変性、および関連するモダリティにおける摂動に対する感受性を明示的に強制するモダリティ対応正規化用語を導入している。
実験により、MoD-DPOは認識精度と幻覚抵抗を一貫して改善し、従来の優先最適化基準よりも優れていた。
- 参考スコア(独自算出の注目度): 4.088161686930475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Omni-modal large language models (omni LLMs) have recently achieved strong performance across audiovisual understanding tasks, yet they remain highly susceptible to cross-modal hallucinations arising from spurious correlations and dominant language priors. In this work, we propose Modality-Decoupled Direct Preference Optimization (MoD-DPO), a simple and effective framework for improving modality grounding in omni LLMs. MoD-DPO introduces modality-aware regularization terms that explicitly enforce invariance to corruptions in irrelevant modalities and sensitivity to perturbations in relevant modalities, thereby reducing unintended cross-modal interactions. To further mitigate over-reliance on textual priors, we incorporate a language-prior debiasing penalty that discourages hallucination-prone text-only responses. Extensive experiments across multiple audiovisual hallucination benchmarks demonstrate that MoD-DPO consistently improves perception accuracy and hallucination resistance, outperforming previous preference optimization baselines under similar training budgets. Our findings underscore the importance of modality-faithful alignment and demonstrate a scalable path toward more reliable and resilient multimodal foundation models.
- Abstract(参考訳): Omni-modal large language model (Omni LLMs) は、近年、音声視覚理解タスクにおいて強いパフォーマンスを達成しているが、素早い相関関係と支配的な言語先行から生じるクロスモーダル幻覚の影響を受けやすい。
本研究では,モダリティ・デカップリング型直接選好最適化(MoD-DPO)を提案する。
MoD-DPOは、無関係なモダリティにおける汚職への不変性を明示的に強制し、関連するモダリティにおける摂動に敏感なモダリティ対応正規化項を導入し、意図しないクロスモーダル相互作用を減少させる。
テキストの先行性に対する過度な依存を緩和するため,幻覚に起因したテキストのみの応答を阻害する言語優先の嫌悪罰を取り入れた。
複数のオーディオ視覚幻覚ベンチマークによる広範囲な実験により、MoD-DPOは認識精度と幻覚耐性を一貫して改善し、同様の訓練予算下での事前の選好最適化基準よりも優れていたことが示されている。
本研究は,モダリティに忠実なアライメントの重要性を強調し,より信頼性が高く弾力性のあるマルチモーダル基盤モデルへの拡張性を示すものである。
関連論文リスト
- DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations [22.299736215070343]
MLLM(Multimodal Large Language Models)は、容易に区別できる好みのペアを過度に強調する傾向がある。
本稿では,学習過程のバランスをとるための費用対効果の高いフレームワークであるDA-DPOを提案する。
論文 参考訳(メタデータ) (2026-01-02T09:41:54Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs [21.509992905027023]
MLLM(Multimodal Large Language Models)は様々なタスクのパフォーマンスを大幅に向上させたが、視覚幻覚に悩まされ続けている。
本稿では,MLLMアライメントのための新しいフレームワークであるSemantic Curriculum Preference Optimization (SCPO)を提案する。
SCPOは、私たちのSemantic Curriculum Preference Pairsデータセット上に構築された、進歩的で、容易にハードなカリキュラムを採用しています。
論文 参考訳(メタデータ) (2025-09-29T09:03:36Z) - Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [69.05600758833471]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。
我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文 参考訳(メタデータ) (2025-06-13T12:29:15Z) - Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization [45.55180760002661]
大規模ビデオ言語モデル(LVLM)は、微細な時間的理解と幻覚に苦慮し、単純なビデオ質問応答タスクでも単純な誤りを犯すことが多い。
本稿では,LVLMが自己の誤りから学習できる自己調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:43:56Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。