論文の概要: Bag of Tricks for Natural Policy Gradient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.09104v1
- Date: Sat, 22 Jan 2022 17:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 05:37:59.317708
- Title: Bag of Tricks for Natural Policy Gradient Reinforcement Learning
- Title(参考訳): 自然政策グラディエント強化学習のためのトリックの袋
- Authors: Brennan Gebotys, Alexander Wong, David A. Clausi
- Abstract要約: 我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
- 参考スコア(独自算出の注目度): 87.54231228860495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural policy gradient methods are popular reinforcement learning methods
that improve the stability of policy gradient methods by preconditioning the
gradient with the inverse of the Fisher-information matrix. However, leveraging
natural policy gradient methods in an optimal manner can be very challenging as
many implementation details must be set to achieve optimal performance. To the
best of the authors' knowledge, there has not been a study that has
investigated strategies for setting these details for natural policy gradient
methods to achieve high performance in a comprehensive and systematic manner.
To address this, we have implemented and compared strategies that impact
performance in natural policy gradient reinforcement learning across five
different second-order approximations. These include varying batch sizes and
optimizing the critic network using the natural gradient. Furthermore, insights
about the fundamental trade-offs when optimizing for performance (stability,
sample efficiency, and computation time) were generated. Experimental results
indicate that the proposed collection of strategies for performance
optimization can improve results by 86% to 181% across the MuJuCo control
benchmark, with TENGraD exhibiting the best approximation performance amongst
the tested approximations. Code in this study is available at
https://github.com/gebob19/natural-policy-gradient-reinforcement-learning.
- Abstract(参考訳): 自然政策勾配法は、フィッシャー情報行列の逆行列で勾配を前処理することで、政策勾配法の安定性を向上させる一般的な強化学習法である。
しかし、多くの実装の詳細を最適性能を達成するために設定する必要があるため、自然ポリシー勾配法を最適に活用することは非常に困難である。
著者の知識を最大限に活用するため,包括的かつ体系的にハイパフォーマンスを達成するために,これらの詳細を自然政策勾配法に設定するための戦略を検討する研究は行われていない。
これに対処するために,我々は5つの異なる2次近似による自然政策勾配強化学習の性能に影響を与える戦略を実装し,比較した。
これには、バッチサイズの変更や、自然勾配を用いた批評家ネットワークの最適化が含まれる。
さらに、パフォーマンス(安定性、サンプル効率、計算時間)を最適化する際の基本的なトレードオフに関する洞察も生成した。
実験結果から,提案した性能最適化戦略の収集は,MuJuCo制御ベンチマークで86%から181%向上し,TENGraDはテストされた近似の中で最高の近似性能を示した。
本研究のコードはhttps://github.com/gebob19/natural-policy-gradient-reinforcement-learningで利用可能である。
関連論文リスト
- vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement [57.926269845305804]
本研究は、アンサンブル批評家が政策改善に与える影響について検討する。
本稿では、政策改善プロセスで利用される勾配間の不一致を測定する手段として、勾配方向の不確実性の概念を導入する。
政策改善プロセスにおいて、勾配方向の不確実性の低い遷移の方が信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2024-05-14T14:18:25Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Efficient Wasserstein Natural Gradients for Reinforcement Learning [31.15380502703101]
政策勾配法および強化学習のための進化戦略への新しい最適化手法を提案する。
この手順は、ワッサーシュタインのペナルティによって誘導される幾何を利用して速度最適化を行う計算効率の良いワッサーシュタイン自然勾配(WNG)降下を用いる。
論文 参考訳(メタデータ) (2020-10-12T00:50:17Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。