論文の概要: Entropy Augmented Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.09322v1
- Date: Fri, 19 Aug 2022 13:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:32:13.894517
- Title: Entropy Augmented Reinforcement Learning
- Title(参考訳): エントロピー強化強化学習
- Authors: Jianfei Ma
- Abstract要約: 我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has gained a lot of success with the presence of
trust region policy optimization (TRPO) and proximal policy optimization (PPO),
for their scalability and efficiency. However, the pessimism of both
algorithms, among which it either is constrained in a trust region or strictly
excludes all suspicious gradients, has been proven to suppress the exploration
and harm the performance of the agent. To address those issues, we propose a
shifted Markov decision process (MDP), or rather, with entropy augmentation, to
encourage the exploration and reinforce the ability of escaping from
suboptimums. Our method is extensible and adapts to either reward shaping or
bootstrapping. With convergence analysis given, we find it is crucial to
control the temperature coefficient. However, if appropriately tuning it, we
can achieve remarkable performance, even on other algorithms, since it is
simple yet effective. Our experiments test augmented TRPO and PPO on MuJoCo
benchmark tasks, of an indication that the agent is heartened towards higher
reward regions, and enjoys a balance between exploration and exploitation. We
verify the exploration bonus of our method on two grid world environments.
- Abstract(参考訳): 信頼領域ポリシー最適化(TRPO)と近位ポリシ最適化(PPO)の存在により,そのスケーラビリティと効率性において,深層強化学習は大きな成功を収めている。
しかしながら、信頼領域に制約されているか、不審な勾配を厳格に排除している両方のアルゴリズムの悲観論は、エージェントの探索を抑え、性能を損なうことが証明されている。
これらの問題に対処するため,我々は移動マルコフ決定プロセス(shifted markov decision process, mdp)を提案する。
我々の方法は拡張可能であり、報酬形成やブートストラッピングに適応する。
収束解析を行った結果,温度係数の制御が不可欠であることが判明した。
しかし、適切にチューニングすれば、単純で効果的であるため、他のアルゴリズムでも優れたパフォーマンスを達成することができる。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化テストを行い,エージェントがより高い報酬領域に向けて心を温め,探索と利用のバランスを保っていることを示す。
2つのグリッドワールド環境における手法の探索ボーナスを検証する。
関連論文リスト
- Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Efficient Exploration via Epistemic-Risk-Seeking Policy Optimization [8.867416300893577]
深層強化学習(RL)における探索は依然として重要な課題である
本稿では,最適化された場合,効率よく探索できる政策が成立する,新しい,微分可能な楽観的目標を提案する。
その結果、他の効率的な探査技術よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-02-18T14:13:25Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Proximal Policy Optimization via Enhanced Exploration Efficiency [6.2501569560329555]
近似ポリシー最適化(PPO)アルゴリズムは、優れた性能を持つ深層強化学習アルゴリズムである。
本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。
複雑な環境で使用可能な固有探査モジュール(IEM-PPO)を提案する。
論文 参考訳(メタデータ) (2020-11-11T03:03:32Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。