論文の概要: You May Not Need Ratio Clipping in PPO
- arxiv url: http://arxiv.org/abs/2202.00079v1
- Date: Mon, 31 Jan 2022 20:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 06:45:45.888685
- Title: You May Not Need Ratio Clipping in PPO
- Title(参考訳): PPOで比率を下げる必要もないかもしれない
- Authors: Mingfei Sun, Vitaly Kurin, Guoqing Liu, Sam Devlin, Tao Qin, Katja
Hofmann, Shimon Whiteson
- Abstract要約: Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
- 参考スコア(独自算出の注目度): 117.03368180633463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimization (PPO) methods learn a policy by iteratively
performing multiple mini-batch optimization epochs of a surrogate objective
with one set of sampled data. Ratio clipping PPO is a popular variant that
clips the probability ratios between the target policy and the policy used to
collect samples. Ratio clipping yields a pessimistic estimate of the original
surrogate objective, and has been shown to be crucial for strong performance.
We show in this paper that such ratio clipping may not be a good option as it
can fail to effectively bound the ratios. Instead, one can directly optimize
the original surrogate objective for multiple epochs; the key is to find a
proper condition to early stop the optimization epoch in each iteration. Our
theoretical analysis sheds light on how to determine when to stop the
optimization epoch, and call the resulting algorithm Early Stopping Policy
Optimization (ESPO). We compare ESPO with PPO across many continuous control
tasks and show that ESPO significantly outperforms PPO. Furthermore, we show
that ESPO can be easily scaled up to distributed training with many workers,
delivering strong performance as well.
- Abstract(参考訳): Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで繰り返し実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
比クリッピングはオリジナルのサロゲートの目標を悲観的に推定し、強力な性能に不可欠であることが示されている。
本稿では,この比クリッピングは,効果的に比率を拘束できない可能性があるため,良い選択肢ではない可能性があることを示す。
代わりに、元のサロゲート目的を複数のエポックに対して直接最適化することができる。鍵となるのは、各イテレーションにおいて最適化エポックを早期に停止する適切な条件を見つけることである。
我々の理論的分析は、最適化の時期を決定する方法に光を当て、得られたアルゴリズムを早期停止ポリシー最適化(espo)と呼ぶ。
ESPO と PPO を比較し,ESPO が PPO を著しく上回ることを示す。
さらに,多くの作業者による分散トレーニングへのespoのスケールアップが容易であり,パフォーマンスも向上することを示す。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance
Sampling [4.162932802377523]
優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。
RLHFの処理は複雑で、時間がかかり、不安定である。
本稿では,重要サンプリングの観点から,シンプルで直感的な非政治的選好最適化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - A dynamical clipping approach with task feedback for Proximal Policy
Optimization [31.823327359782162]
最適クリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
以前の研究では、固定された切り抜きがエージェントの探索を制限することが示唆された。
Pb-PPO(Preference based Proximal Policy Optimization)と呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。