論文の概要: Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on
Efficient Data Utilization
- arxiv url: http://arxiv.org/abs/2402.10342v1
- Date: Thu, 15 Feb 2024 22:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 18:04:24.023697
- Title: Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on
Efficient Data Utilization
- Title(参考訳): RLHFにおける探索駆動政策最適化:効率的なデータ利用に関する理論的考察
- Authors: Yihan Du, Anna Winnicki, Gal Dalal, Shie Mannor, R. Srikant
- Abstract要約: ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
重要な特徴は、報酬関数パラメーターを推論するために用いられる軌道レベルの楕円ポテンシャル分析技術である。
- 参考スコア(独自算出の注目度): 60.66162263756611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has achieved impressive
empirical successes while relying on a small amount of human feedback. However,
there is limited theoretical justification for this phenomenon. Additionally,
most recent studies focus on value-based algorithms despite the recent
empirical successes of policy-based algorithms. In this work, we consider an
RLHF algorithm based on policy optimization (PO-RLHF). The algorithm is based
on the popular Policy Cover-Policy Gradient (PC-PG) algorithm, which assumes
knowledge of the reward function. In PO-RLHF, knowledge of the reward function
is not assumed and the algorithm relies on trajectory-based comparison feedback
to infer the reward function. We provide performance bounds for PO-RLHF with
low query complexity, which provides insight into why a small amount of human
feedback may be sufficient to get good performance with RLHF. A key novelty is
our trajectory-level elliptical potential analysis technique used to infer
reward function parameters when comparison queries rather than reward
observations are used. We provide and analyze algorithms in two settings:
linear and neural function approximation, PG-RLHF and NN-PG-RLHF, respectively.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、少数の人間のフィードバックを頼りながら、印象的な経験的成功を達成した。
しかし、この現象の理論的正当性は限られている。
さらに、近年の研究では、政策に基づくアルゴリズムの実証的な成功にもかかわらず、価値ベースのアルゴリズムに焦点を当てている。
本稿ではポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムについて考察する。
このアルゴリズムは、報酬関数の知識を前提とした一般的なポリシカバー・ポリティ・グラディエント(PC-PG)アルゴリズムに基づいている。
PO-RLHFでは、報酬関数の知識は仮定されず、アルゴリズムは報酬関数を推測するために軌道に基づく比較フィードバックに依存する。
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供し、RLHFで優れたパフォーマンスを得るのに、低量の人的フィードバックが十分な理由を洞察する。
重要な特徴は,報酬の観測ではなく,比較クエリの際の報酬関数パラメータを推定するために用いられる,軌道レベルの楕円ポテンシャル解析手法である。
本稿では,線形関数近似,PG-RLHF,NN-PG-RLHFの2つの設定でアルゴリズムを解析する。
関連論文リスト
- The Effective Horizon Explains Deep RL Performance in Stochastic
Environments [23.10267286342329]
ランダム探索やニューラルネットワークのようなより表現力のある関数クラスを用いたにもかかわらず、ディープRLアルゴリズムが実際によく機能する理由を示す。
我々は、ランダムにロールアウトを収集して、ほぼ最適ポリシーを反復的に学習する新しいRLアルゴリズム、SQIRLを導入する。
ランダムな条件のQ-関数を推定することにより、多くの環境が解決可能であることを示すので、実際にランダムな探索がうまく機能する理由を示す。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。