論文の概要: On Proximal Policy Optimization's Heavy-tailed Gradients
- arxiv url: http://arxiv.org/abs/2102.10264v1
- Date: Sat, 20 Feb 2021 05:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 06:37:04.996588
- Title: On Proximal Policy Optimization's Heavy-tailed Gradients
- Title(参考訳): 重尾勾配の近位政策最適化について
- Authors: Saurabh Garg, Joshua Zhanson, Emilio Parisotto, Adarsh Prasad, J. Zico
Kolter, Sivaraman Balakrishnan, Zachary C. Lipton, Ruslan Salakhutdinov and
Pradeep Ravikumar
- Abstract要約: 近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
- 参考スコア(独自算出の注目度): 150.08522793940708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern policy gradient algorithms, notably Proximal Policy Optimization
(PPO), rely on an arsenal of heuristics, including loss clipping and gradient
clipping, to ensure successful learning. These heuristics are reminiscent of
techniques from robust statistics, commonly used for estimation in outlier-rich
("heavy-tailed") regimes. In this paper, we present a detailed empirical study
to characterize the heavy-tailed nature of the gradients of the PPO surrogate
reward function. We demonstrate that the gradients, especially for the actor
network, exhibit pronounced heavy-tailedness and that it increases as the
agent's policy diverges from the behavioral policy (i.e., as the agent goes
further off policy). Further examination implicates the likelihood ratios and
advantages in the surrogate reward as the main sources of the observed
heavy-tailedness. We then highlight issues arising due to the heavy-tailed
nature of the gradients. In this light, we study the effects of the standard
PPO clipping heuristics, demonstrating that these tricks primarily serve to
offset heavy-tailedness in gradients. Thus motivated, we propose incorporating
GMOM, a high-dimensional robust estimator, into PPO as a substitute for three
clipping tricks. Despite requiring less hyperparameter tuning, our method
matches the performance of PPO (with all heuristics enabled) on a battery of
MuJoCo continuous control tasks.
- Abstract(参考訳): 現代のポリシーグラデーションアルゴリズム、特にPPO(Proximal Policy Optimization)は、学習を成功させるために、損失クリッピングと勾配クリッピングを含むヒューリスティックの武器に依存しています。
これらのヒューリスティックはロバストな統計学の手法を想起させるもので、通常、外向きの「重み付き」("heavy-tailed")レジームの推定に用いられる。
本稿では、PPOサーロゲート報酬関数の勾配の重尾特性を特徴づける詳細な実証的研究について述べる。
本研究では,特にアクターネットワークにおいて,エージェントの行動方針が行動方針から逸脱するにつれて,エージェントの行動方針が変化していくにつれて,その勾配が顕著に高くなることを示す。
さらなる検査は、観察された重尾の主な原因として、代理報酬の確率比と利点を暗示する。
次に,勾配の重み付き性質によって生じる問題を強調する。
この光では、標準的なPPOクリッピングヒューリスティックの効果を研究し、これらのトリックが主に勾配の重尾を相殺するのに役立つことを実証する。
そこで,3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
ハイパーパラメータチューニングは少ないが,MuJoCo連続制御タスクのバッテリ上でのPPO(すべてのヒューリスティックを有効化)の性能にマッチする。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Increasing Entropy to Boost Policy Gradient Performance on
Personalization Tasks [0.46040036610482665]
政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に及ぼす正規化の影響を考察する。
数値的な証拠は、ポリシーの正則化が、精度を損なうことなく、性能を向上させることを示すために与えられる。
論文 参考訳(メタデータ) (2023-10-09T01:03:05Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Model-free Policy Learning with Reward Gradients [9.847875182113137]
モデルを学ぶことなく報酬勾配を統合する新しいアプローチであるtextitReward Policy Gradient estimator を開発した。
また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。
論文 参考訳(メタデータ) (2021-03-09T00:14:13Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。