Fugu-MT 論文翻訳(概要): mDPO: Conditional Preference Optimization for Multimodal Large Language Models

論文の概要: mDPO: Conditional Preference Optimization for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2406.11839v2
Date: Mon, 07 Oct 2024 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:21:20.372148
Title: mDPO: Conditional Preference Optimization for Multimodal Large Language Models
Title（参考訳）: mDPO:マルチモーダル大言語モデルのための条件付き優先度最適化
Authors: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen,
Abstract要約: 直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
参考スコア（独自算出の注目度）: 52.607764280030196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct preference optimization (DPO) has shown to be an effective method for large language model (LLM) alignment. Recent works have attempted to apply DPO to multimodal scenarios but have found it challenging to achieve consistent improvement. Through a comparative experiment, we identify the unconditional preference problem in multimodal preference optimization, where the model overlooks the image condition. To address this problem, we propose mDPO, a multimodal DPO objective that prevents the over-prioritization of language-only preferences by also optimizing image preference. Moreover, we introduce a reward anchor that forces the reward to be positive for chosen responses, thereby avoiding the decrease in their likelihood -- an intrinsic problem of relative preference optimization. Experiments on two multimodal LLMs of different sizes and three widely used benchmarks demonstrate that mDPO effectively addresses the unconditional preference problem in multimodal preference optimization and significantly improves model performance, particularly in reducing hallucination.
Abstract（参考訳）: 直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。比較実験により、モデルが画像条件を見落としているマルチモーダル選好最適化における非条件選好問題を特定する。この問題に対処するために,画像の嗜好を最適化することで,言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOの目的であるmDPOを提案する。さらに、選択された応答に対して正の報酬を強制する報酬アンカーを導入し、相対的選好最適化の本質的な問題であるその可能性の低下を回避する。異なるサイズの2つのマルチモーダルLLMと3つの広く使用されているベンチマーク実験により、mDPOはマルチモーダル選好最適化における非条件選好問題に効果的に対処し、特に幻覚の低減においてモデル性能を大幅に改善することを示した。

関連論文リスト

AdaViP: Aligning Multi-modal LLMs via Adaptive Vision-enhanced Preference Optimization [26.03204301595711]
本稿では,2つの重要なイノベーションを通じて制限に対処する適応型視覚強調最適化(AdaViP)を提案する。視覚に基づく選好ペア構築は、複数の視覚基盤モデルを統合し、画像から重要な視覚要素を戦略的に除去する。 AdaViP-7Bは、Object HalBench上でそれぞれ応答レベルと言及レベルの幻覚を93.7%、96.4%減少させる。
論文参考訳（メタデータ） (2025-04-22T06:19:38Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。 MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文参考訳（メタデータ） (2024-10-23T07:56:48Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Multi-Objective Bayesian Optimization with Active Preference Learning [18.066263838953223]
本稿では,多目的最適化 (MOO) 問題において最も望ましい解を特定するためのベイズ最適化 (BO) 手法を提案する。また、意思決定者(DM)との相互作用コストを最小限に抑えるため、選好推定のためのアクティブラーニング戦略を提案する。
論文参考訳（メタデータ） (2023-11-22T15:24:36Z)
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。 MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文参考訳（メタデータ） (2023-10-05T17:35:26Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。