論文の概要: Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization
- arxiv url: http://arxiv.org/abs/2402.10342v2
- Date: Mon, 15 Jul 2024 04:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:55:15.623237
- Title: Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization
- Title(参考訳): RLHFにおける探索駆動型政策最適化:効率的なデータ利用に関する理論的考察
- Authors: Yihan Du, Anna Winnicki, Gal Dalal, Shie Mannor, R. Srikant,
- Abstract要約: ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
- 参考スコア(独自算出の注目度): 56.54271464134885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has achieved impressive empirical successes while relying on a small amount of human feedback. However, there is limited theoretical justification for this phenomenon. Additionally, most recent studies focus on value-based algorithms despite the recent empirical successes of policy-based algorithms. In this work, we consider an RLHF algorithm based on policy optimization (PO-RLHF). The algorithm is based on the popular Policy Cover-Policy Gradient (PC-PG) algorithm, which assumes knowledge of the reward function. In PO-RLHF, knowledge of the reward function is not assumed, and the algorithm uses trajectory-based comparison feedback to infer the reward function. We provide performance bounds for PO-RLHF with low query complexity, which provides insight into why a small amount of human feedback may be sufficient to achieve good performance with RLHF. A key novelty is a trajectory-level elliptical potential analysis, which bounds the reward estimation error when comparison feedback (rather than numerical reward observation) is given. We provide and analyze algorithms PG-RLHF and NN-PG-RLHF for two settings: linear and neural function approximation, respectively.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、少数の人間のフィードバックを頼りながら、印象的な経験的成功を達成した。
しかし、この現象の理論的正当化は限られている。
さらに、最近の研究では、ポリシーベースのアルゴリズムの実証的な成功にもかかわらず、価値に基づくアルゴリズムに焦点を当てている。
本稿ではポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムについて考察する。
このアルゴリズムは、報酬関数の知識を前提とした、人気のあるポリシカバー・ポリティ・グラディエント(PC-PG)アルゴリズムに基づいている。
PO-RLHFでは、報酬関数の知識は仮定されず、そのアルゴリズムは軌道に基づく比較フィードバックを用いて報酬関数を推測する。
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供し、RLHFで優れたパフォーマンスを達成するのに、なぜ少量の人間からのフィードバックが十分なのかを洞察する。
重要な新規性は、(数値的な報酬観察ではなく)比較フィードバックが与えられるときの報酬推定誤差を境界とする軌道レベルの楕円ポテンシャル解析である。
線形関数近似とニューラル関数近似の2つの設定に対して、PG-RLHFとNN-PG-RLHFをそれぞれ解析する。
関連論文リスト
- Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。