論文の概要: Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs
- arxiv url: http://arxiv.org/abs/2506.10054v1
- Date: Wed, 11 Jun 2025 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.347826
- Title: Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs
- Title(参考訳): Omni-DPO: LLMの動的選好学習のためのデュアル・パースペクティブ・パラダイム
- Authors: Shangpin Peng, Weinong Wang, Zhuotao Tian, Senqiao Yang, Xing Wu, Haotian Xu, Chengquan Zhang, Takashi Isobe, Baotian Hu, Min Zhang,
- Abstract要約: Omni-DPOは、各選好ペアの固有品質とそれらのペア上でのモデルの進化性能を考慮に入れた双対パースペクティブ最適化フレームワークである。
様々なモデルとベンチマークの実験結果から,Omni-DPOの優位性と一般化能力が示された。
- 参考スコア(独自算出の注目度): 28.41899655478021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Direct Preference Optimization (DPO) has become a cornerstone of reinforcement learning from human feedback (RLHF) due to its simplicity and efficiency. However, existing DPO-based approaches typically treat all preference pairs uniformly, ignoring critical variations in their inherent quality and learning utility, leading to suboptimal data utilization and performance. To address this challenge, we propose Omni-DPO, a dual-perspective optimization framework that jointly accounts for (1) the inherent quality of each preference pair and (2) the model's evolving performance on those pairs. By adaptively weighting samples according to both data quality and the model's learning dynamics during training, Omni-DPO enables more effective training data utilization and achieves better performance. Experimental results on various models and benchmarks demonstrate the superiority and generalization capabilities of Omni-DPO. On textual understanding tasks, Gemma-2-9b-it finetuned with Omni-DPO beats the leading LLM, Claude 3 Opus, by a significant margin of 6.7 points on the Arena-Hard benchmark. On mathematical reasoning tasks, Omni-DPO consistently outperforms the baseline methods across all benchmarks, providing strong empirical evidence for the effectiveness and robustness of our approach. Code and models will be available at https://github.com/pspdada/Omni-DPO.
- Abstract(参考訳): 直接選好最適化(DPO)は、その単純さと効率性から、人間からのフィードバック(RLHF)から強化学習の基盤となっている。
しかし、既存のDPOベースのアプローチは、通常、すべての選好ペアを均一に扱い、固有の品質と学習ユーティリティの重要なバリエーションを無視し、最適なデータ利用とパフォーマンスをもたらす。
Omni-DPO は,(1) それぞれの選好ペア固有の品質と(2) それらのペア上でのモデルの進化性能を共同で考慮した双対パースペクティブ最適化フレームワークである。
データ品質とトレーニング中のモデルの学習ダイナミクスの両方に応じてサンプルを適応的に重み付けすることで、Omni-DPOはより効果的なトレーニングデータ利用を可能にし、より良いパフォーマンスを実現する。
様々なモデルとベンチマークの実験結果から,Omni-DPOの優位性と一般化能力が示された。
テキスト理解タスクでは、Omni-DPOで微調整されたGemma-2-9b-itが、主要なLLMであるClaude 3 OpusをArena-Hardベンチマークで6.7ポイント差で破った。
数学的推論タスクにおいて、Omni-DPOは全てのベンチマークのベースライン法を一貫して上回り、我々のアプローチの有効性と堅牢性を示す強力な実証的証拠を提供する。
コードとモデルはhttps://github.com/pspdada/Omni-DPO.comで入手できる。
関連論文リスト
- Towards Self-Improvement of Diffusion Models via Group Preference Optimization [10.6096255671291]
グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-05-16T10:04:57Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。