論文の概要: Proximal Policy Optimization via Enhanced Exploration Efficiency
- arxiv url: http://arxiv.org/abs/2011.05525v1
- Date: Wed, 11 Nov 2020 03:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:35:58.097417
- Title: Proximal Policy Optimization via Enhanced Exploration Efficiency
- Title(参考訳): 探索効率の向上による政策最適化
- Authors: Junwei Zhang, Zhenghao Zhang, Shuai Han, Shuai L\"u
- Abstract要約: 近似ポリシー最適化(PPO)アルゴリズムは、優れた性能を持つ深層強化学習アルゴリズムである。
本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。
複雑な環境で使用可能な固有探査モジュール(IEM-PPO)を提案する。
- 参考スコア(独自算出の注目度): 6.2501569560329555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal policy optimization (PPO) algorithm is a deep reinforcement learning
algorithm with outstanding performance, especially in continuous control tasks.
But the performance of this method is still affected by its exploration
ability. For classical reinforcement learning, there are some schemes that make
exploration more full and balanced with data exploitation, but they can't be
applied in complex environments due to the complexity of algorithm. Based on
continuous control tasks with dense reward, this paper analyzes the assumption
of the original Gaussian action exploration mechanism in PPO algorithm, and
clarifies the influence of exploration ability on performance. Afterward,
aiming at the problem of exploration, an exploration enhancement mechanism
based on uncertainty estimation is designed in this paper. Then, we apply
exploration enhancement theory to PPO algorithm and propose the proximal policy
optimization algorithm with intrinsic exploration module (IEM-PPO) which can be
used in complex environments. In the experimental parts, we evaluate our method
on multiple tasks of MuJoCo physical simulator, and compare IEM-PPO algorithm
with curiosity driven exploration algorithm (ICM-PPO) and original algorithm
(PPO). The experimental results demonstrate that IEM-PPO algorithm needs longer
training time, but performs better in terms of sample efficiency and cumulative
reward, and has stability and robustness.
- Abstract(参考訳): 近似ポリシー最適化(PPO)アルゴリズムは、特に連続制御タスクにおいて優れた性能を持つ深層強化学習アルゴリズムである。
しかし,本手法の性能は依然として探索能力に影響されている。
古典的な強化学習では、探索をより完全化し、データエクスプロイトと均衡させるスキームがあるが、アルゴリズムの複雑さのために複雑な環境では適用できない。
本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。
その後, 探索問題を対象として, 不確実性推定に基づく探査促進機構を設計した。
次に、PPOアルゴリズムに探索拡張理論を適用し、複雑な環境で使用可能な固有探索モジュール(IEM-PPO)を用いた近似ポリシー最適化アルゴリズムを提案する。
実験部では,mujoco物理シミュレータの複数のタスクにおける提案手法を評価し,iem-ppoアルゴリズムとcuriosity driven exploration algorithm (icm-ppo) および original algorithm (ppo) との比較を行った。
実験結果から,IEM-PPOアルゴリズムはより長いトレーニング時間を必要とするが,サンプル効率と累積報酬の点で優れた性能を示し,安定性と堅牢性を示した。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Proximal Policy Optimization with Adaptive Exploration [0.0]
本稿では,強化学習の文脈における探索・探索トレードオフについて検討する。
提案する適応探索フレームワークは,最近のエージェントの性能に基づいて,トレーニング中の探索の規模を動的に調整する。
論文 参考訳(メタデータ) (2024-05-07T20:51:49Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward
Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。
本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。
プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:29:20Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。