論文の概要: Proximal Policy Gradient: PPO with Policy Gradient
- arxiv url: http://arxiv.org/abs/2010.09933v1
- Date: Tue, 20 Oct 2020 00:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:11:04.850833
- Title: Proximal Policy Gradient: PPO with Policy Gradient
- Title(参考訳): 近接政策グラディエント:政策グラディエントを備えたPPO
- Authors: Ju-Seung Byun, Byungmoon Kim, Huamin Wang
- Abstract要約: 本稿では,VPG (vanilla Policy gradient) と PPO (proximal Policy Optimization) の両方に近い新しいアルゴリズム PPG (Proximal Policy Gradient) を提案する。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
- 参考スコア(独自算出の注目度): 13.571988925615486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new algorithm PPG (Proximal Policy Gradient),
which is close to both VPG (vanilla policy gradient) and PPO (proximal policy
optimization). The PPG objective is a partial variation of the VPG objective
and the gradient of the PPG objective is exactly same as the gradient of the
VPG objective. To increase the number of policy update iterations, we introduce
the advantage-policy plane and design a new clipping strategy. We perform
experiments in OpenAI Gym and Bullet robotics environments for ten random
seeds. The performance of PPG is comparable to PPO, and the entropy decays
slower than PPG. Thus we show that performance similar to PPO can be obtained
by using the gradient formula from the original policy gradient theorem.
- Abstract(参考訳): 本稿では,VPG (vanilla policy gradient) と PPO (proximal policy optimization) の両方に近い新しいアルゴリズム PPG (proximal Policy Gradient) を提案する。
PPG目的はVPG目標の部分的変動であり、PSG目標の勾配はVPG目標の勾配と全く同じである。
ポリシー更新の繰り返し数を増やすために、我々は、有利な政治面を導入し、新しいクリッピング戦略を設計する。
ランダムシード10種を対象に,OpenAI GymとBulletのロボット環境で実験を行った。
PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。
したがって、PPOに類似した性能は、元の方針勾配定理から勾配公式を用いて得られることを示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning [12.987019067098412]
我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
論文 参考訳(メタデータ) (2023-10-18T11:33:22Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Phasic Policy Gradient [24.966649684989367]
従来の方法では、共有ネットワークか、ポリシーと値関数を表現するために別々のネットワークを選択する必要がある。
本稿では,政策と価値関数のトレーニングを異なる段階に分けて,従来のオンラインアクター・クリティカルな手法を改良した強化学習フレームワークであるファシック・ポリシー・グラディエントを紹介する。
PPGは、最適化を2つのフェーズに分割することで、両方の世界のベストを達成できる。
論文 参考訳(メタデータ) (2020-09-09T16:52:53Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。