論文の概要: DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations
- arxiv url: http://arxiv.org/abs/2601.00623v1
- Date: Fri, 02 Jan 2026 09:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.546956
- Title: DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations
- Title(参考訳): DA-DPO:MLLM幻覚の低減のためのコスト効率の難易度を考慮した選好最適化
- Authors: Longtian Qiu, Shan Ning, Chuyu Zhang, Jiaxuan Sun, Xuming He,
- Abstract要約: MLLM(Multimodal Large Language Models)は、容易に区別できる好みのペアを過度に強調する傾向がある。
本稿では,学習過程のバランスをとるための費用対効果の高いフレームワークであるDA-DPOを提案する。
- 参考スコア(独自算出の注目度): 22.299736215070343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has shown strong potential for mitigating hallucinations in Multimodal Large Language Models (MLLMs). However, existing multimodal DPO approaches often suffer from overfitting due to the difficulty imbalance in preference data. Our analysis shows that MLLMs tend to overemphasize easily distinguishable preference pairs, which hinders fine-grained hallucination suppression and degrades overall performance. To address this issue, we propose Difficulty-Aware Direct Preference Optimization (DA-DPO), a cost-effective framework designed to balance the learning process. DA-DPO consists of two main components: (1) Difficulty Estimation leverages pre-trained vision--language models with complementary generative and contrastive objectives, whose outputs are integrated via a distribution-aware voting strategy to produce robust difficulty scores without additional training; and (2) Difficulty-Aware Training reweights preference pairs based on their estimated difficulty, down-weighting easy samples while emphasizing harder ones to alleviate overfitting. This framework enables more effective preference optimization by prioritizing challenging examples, without requiring new data or extra fine-tuning stages. Extensive experiments demonstrate that DA-DPO consistently improves multimodal preference optimization, yielding stronger robustness to hallucinations and better generalization across standard benchmarks, while remaining computationally efficient. The project page is available at https://artanic30.github.io/project_pages/DA-DPO/.
- Abstract(参考訳): 直接選好最適化(DPO)はマルチモーダル大言語モデル(MLLM)における幻覚を緩和する強力な可能性を示している。
しかし、既存のマルチモーダルDPOアプローチは、優先データの不均衡が困難であるため、オーバーフィッティングに悩まされることが多い。
解析の結果,MLLMは識別しやすい選好ペアを過度に強調する傾向にあり,より微細な幻覚抑制を阻害し,全体的な性能を低下させることが示された。
そこで本稿では,学習プロセスのバランスをとるための費用対効果の高いフレームワークであるDA-DPO(Difficulty-Aware Direct Preference Optimization)を提案する。
DA-DPOは2つの主成分から構成される: (1) 難易度推定は、相補的な生成的および対照的な目的を持つ事前学習された視覚言語モデルを利用して、アウトプットを分布認識投票戦略を介して統合し、追加のトレーニングなしで頑健な難易度スコアを生成する; (2) 難易度学習は、その推定困難度に基づいて選好ペアを選好し、簡単なサンプルを減らし、過度適合を緩和する。
このフレームワークは、新しいデータや追加の微調整段階を必要とせずに、挑戦的な例を優先順位付けすることで、より効果的な選好最適化を可能にする。
大規模な実験により、DA-DPOはマルチモーダルな選好最適化を一貫して改善し、幻覚への強い頑健さと標準ベンチマーク全体の一般化を実現し、計算効率は向上した。
プロジェクトページはhttps://artanic30.github.io/project_pages/DA-DPO/で公開されている。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Beyond Single-Reward: Multi-Pair, Multi-Perspective Preference Optimization for Machine Translation [44.04325848740683]
M2PO: マルチペア, マルチパースペクティブ・パラメータ最適化について紹介する。
我々のフレームワークは、より堅牢な信号を生成するマルチパースペクティブ報酬エンジンを統合している。
挑戦的なWMT21-22ベンチマークでは、M2POは既存の選好最適化手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-10-15T11:30:49Z) - M3PO: Multimodal-Model-Guided Preference Optimization for Visual Instruction Following [4.119014132092875]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダル命令の潜在能力を秘めている。
M3POはLVLMの視覚的命令の処理能力を高めるために設計された,新しい,データ効率のよい手法である。
M3POは、LVLM生成候補の多様なプールから、最も「学習価値の高い」選好サンプルペアをインテリジェントに選択する。
論文 参考訳(メタデータ) (2025-08-17T18:07:55Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。