論文の概要: Reward Scale Robustness for Proximal Policy Optimization via DreamerV3
Tricks
- arxiv url: http://arxiv.org/abs/2310.17805v1
- Date: Thu, 26 Oct 2023 22:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:23:03.765635
- Title: Reward Scale Robustness for Proximal Policy Optimization via DreamerV3
Tricks
- Title(参考訳): DreamerV3トリップによる近似政策最適化のための逆スケールロバストネス
- Authors: Ryan Sullivan, Akarsh Kumar, Shengyi Huang, John P. Dickerson, Joseph
Suarez
- Abstract要約: この研究はDreamerV3のトリックをPPOに適用し、オリジナルの作品以外の実験的な研究としては初めてである。
本稿では,Arcade Learning EnvironmentとDeepMind Control Suiteの合計1万時間以上のアブレーション研究について紹介する。
これらのトリックによるPPOは、アタリゲーム上でPPOに比較可能であり、報奨クリッピングを伴わずにPPOを著しく上回る。
- 参考スコア(独自算出の注目度): 27.64248367463575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reinforcement learning methods rely heavily on dense, well-normalized
environment rewards. DreamerV3 recently introduced a model-based method with a
number of tricks that mitigate these limitations, achieving state-of-the-art on
a wide range of benchmarks with a single set of hyperparameters. This result
sparked discussion about the generality of the tricks, since they appear to be
applicable to other reinforcement learning algorithms. Our work applies
DreamerV3's tricks to PPO and is the first such empirical study outside of the
original work. Surprisingly, we find that the tricks presented do not transfer
as general improvements to PPO. We use a high quality PPO reference
implementation and present extensive ablation studies totaling over 10,000 A100
hours on the Arcade Learning Environment and the DeepMind Control Suite. Though
our experiments demonstrate that these tricks do not generally outperform PPO,
we identify cases where they succeed and offer insight into the relationship
between the implementation tricks. In particular, PPO with these tricks
performs comparably to PPO on Atari games with reward clipping and
significantly outperforms PPO without reward clipping.
- Abstract(参考訳): ほとんどの強化学習方法は、密集した正規化された環境報酬に大きく依存している。
DreamerV3は最近、これらの制限を緩和する多くのトリックを備えたモデルベースの手法を導入し、単一のハイパーパラメータのセットで幅広いベンチマークで最先端を達成した。
この結果は、他の強化学習アルゴリズムに適用できるように見えるため、トリックの一般性に関する議論を引き起こした。
私たちの研究はDreamerV3のトリックをPPOに適用し、オリジナルの作品以外では初めての実験的な研究です。
驚くべきことに、提示されたトリックはPPOの一般的な改善として転送されない。
我々は、高品質なPPO参照実装を使用し、Arcade Learning EnvironmentとDeepMind Control Suiteで合計10,000A100時間以上のアブレーション研究を行っている。
実験の結果,これらの手法は一般的にPPOを上回りませんが,成功事例を特定し,実装手法の関係について考察する。
特に、これらのトリックを持つPPOは、アタリゲーム上のPPOに対して、報酬クリッピングで比較可能であり、報酬クリッピングなしでPPOを著しく上回る。
関連論文リスト
- Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning
Environments [23.337088238344567]
この研究は、ギムで最も広く使われている強化学習環境27の報酬面と関連する視覚化を提示する。
また,多くの普及型強化学習環境において,「クリフ」が頻発していることも初めて示された。
論文 参考訳(メタデータ) (2022-05-14T09:08:29Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Decaying Clipping Range in Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:08:05Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。