論文の概要: Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences
- arxiv url: http://arxiv.org/abs/2403.01857v2
- Date: Wed, 5 Jun 2024 09:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:51:07.603657
- Title: Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences
- Title(参考訳): Reward Model Learning vs. Direct Policy Optimization: A Comparison Analysis of Learning from Human Preferences
- Authors: Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban, Georgios Tzannetos, Goran Radanović, Adish Singla,
- Abstract要約: 我々は、人間からのフィードバック(RLHF)からの強化学習のパラダイムと、最近提案された直接選好最適化(DPO)のパラダイムを体系的に比較することにより、人間の嗜好から学ぶことのより深い理解に向けた一歩を踏み出した。
RLHFとDPOの両方によって誘導される最適下界の最小値統計的境界を導出する。
我々は解析を近似最適化設定に拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
- 参考スコア(独自算出の注目度): 24.645259298082436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we take a step towards a deeper understanding of learning from human preferences by systematically comparing the paradigm of reinforcement learning from human feedback (RLHF) with the recently proposed paradigm of direct preference optimization (DPO). We focus our attention on the class of loglinear policy parametrization and linear reward functions. In order to compare the two paradigms, we first derive minimax statistical bounds on the suboptimality gap induced by both RLHF and DPO, assuming access to an oracle that exactly solves the optimization problems. We provide a detailed discussion on the relative comparison between the two paradigms, simultaneously taking into account the sample size, policy and reward class dimensions, and the regularization temperature. Moreover, we extend our analysis to the approximate optimization setting and derive exponentially decaying convergence rates for both RLHF and DPO. Next, we analyze the setting where the ground-truth reward is not realizable and find that, while RLHF incurs a constant additional error, DPO retains its asymptotically decaying gap by just tuning the temperature accordingly. Finally, we extend our comparison to the Markov decision process setting, where we generalize our results with exact optimization. To the best of our knowledge, we are the first to provide such a comparative analysis for RLHF and DPO.
- Abstract(参考訳): 本稿では、人間からのフィードバック(RLHF)からの強化学習のパラダイムと、最近提案された直接選好最適化(DPO)のパラダイムを体系的に比較することにより、人間の嗜好から学ぶことのより深い理解に向けた一歩を踏み出した。
対数政策のパラメトリゼーションと線形報酬関数のクラスに注目する。
2つのパラダイムを比較するために、まずRLHFとDPOの両方が引き起こす最適度差の最小値統計境界を導出し、最適化問題を正確に解くオラクルへのアクセスを仮定する。
本稿では,2つのパラダイムの相対比較について,サンプルサイズ,政策および報酬クラス次元,正規化温度を同時に考慮し,詳細な議論を行う。
さらに、近似最適化設定まで解析を拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
次に, 地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地
最後に、マルコフ決定プロセス設定との比較を拡張し、その結果を正確な最適化で一般化する。
我々の知る限りでは、我々はRLHFとDPOの比較分析を初めて提供する。
関連論文リスト
- The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好調整モデルの多くは、共通の選好データセット上で60%未満のランキング精度を実現する。
我々は、この矛盾をDPOの目的に当てはめ、これは経験的にも理論的にも、微妙なランキングエラーの修正に不適当である。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。