論文の概要: A Survey of Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.11701v1
- Date: Wed, 12 Mar 2025 08:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:40.046664
- Title: A Survey of Direct Preference Optimization
- Title(参考訳): 直接選好最適化に関する調査
- Authors: Shunyu Liu, Wenkai Fang, Zetian Hu, Junjie Zhang, Yang Zhou, Kongcheng Zhang, Rongcheng Tu, Ting-En Lin, Fei Huang, Mingli Song, Yongbin Li, Dacheng Tao,
- Abstract要約: LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
- 参考スコア(独自算出の注目度): 103.59317151002693
- License:
- Abstract: Large Language Models (LLMs) have demonstrated unprecedented generative capabilities, yet their alignment with human values remains critical for ensuring helpful and harmless deployments. While Reinforcement Learning from Human Feedback (RLHF) has emerged as a powerful paradigm for aligning LLMs with human preferences, its reliance on complex reward modeling introduces inherent trade-offs in computational efficiency and training stability. In this context, Direct Preference Optimization (DPO) has recently gained prominence as a streamlined alternative that directly optimizes LLMs using human preferences, thereby circumventing the need for explicit reward modeling. Owing to its theoretical elegance and computational efficiency, DPO has rapidly attracted substantial research efforts exploring its various implementations and applications. However, this field currently lacks systematic organization and comparative analysis. In this survey, we conduct a comprehensive overview of DPO and introduce a novel taxonomy, categorizing previous works into four key dimensions: data strategy, learning framework, constraint mechanism, and model property. We further present a rigorous empirical analysis of DPO variants across standardized benchmarks. Additionally, we discuss real-world applications, open challenges, and future directions for DPO. This work delivers both a conceptual framework for understanding DPO and practical guidance for practitioners, aiming to advance robust and generalizable alignment paradigms. All collected resources are available and will be continuously updated at https://github.com/liushunyu/awesome-direct-preference-optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、前例のない生成能力を示しているが、人的価値との整合性は、有用で無害なデプロイメントを保証するために重要である。
Reinforcement Learning from Human Feedback (RLHF)は、LLMを人間の好みに合わせるための強力なパラダイムとして登場したが、複雑な報酬モデリングへの依存は、計算効率とトレーニング安定性に固有のトレードオフをもたらす。
この文脈において、直接選好最適化(DPO)は、人間の選好を使ってLSMを直接最適化し、明示的な報奨モデリングの必要性を回避するための合理化された代替手段として最近注目されている。
理論上のエレガンスと計算効率のため、DPOは様々な実装と応用を探求するかなりの研究成果を急速に惹きつけてきた。
しかし、現在この分野は体系的な組織と比較分析を欠いている。
本調査では,データ戦略,学習フレームワーク,制約機構,モデル特性の4つの重要な側面に分類し,DPOの概要を概観し,新しい分類法を導入する。
さらに、標準化されたベンチマーク間でのDPO変異の厳密な実証分析について述べる。
さらに、実世界のアプリケーション、オープンチャレンジ、DPOの今後の方向性についても論じる。
この研究は、DPOを理解するための概念的フレームワークと実践者のための実践的ガイダンスの両方を提供し、堅牢で一般化可能なアライメントパラダイムを前進させることを目的としている。
収集したリソースはすべて利用可能であり、https://github.com/liushunyu/awesome-direct-preference-timizationで継続的に更新される。
関連論文リスト
- Many of Your DPOs are Secretly One: Attempting Unification Through Mutual Information [5.655057078073446]
大規模言語モデル(LLM)のポストアライメントは、実用性、安全性、人間の意図との整合性を改善する上で重要である。
直接選好最適化(DPO)は、このアライメントを実現するために最も広く使われているアルゴリズムの1つである。
本稿では,相互情報にインスパイアされた統一的な枠組みを導入し,フレキシブルな先行する新たな損失関数を提案する。
論文 参考訳(メタデータ) (2025-01-02T21:31:38Z) - A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。
DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文 参考訳(メタデータ) (2024-10-21T02:27:24Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。