論文の概要: Proximal Policy Optimization with Continuous Bounded Action Space via
the Beta Distribution
- arxiv url: http://arxiv.org/abs/2111.02202v1
- Date: Wed, 3 Nov 2021 13:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:42:57.433672
- Title: Proximal Policy Optimization with Continuous Bounded Action Space via
the Beta Distribution
- Title(参考訳): 連続境界行動空間を用いたベータ分布による最適政策最適化
- Authors: Irving G. B. Petrazzini and Eric A. Antonelo
- Abstract要約: 本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,プロキシポリシー最適化アルゴリズムによってトレーニングされた場合の動作について検討する。
両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning methods for continuous control tasks have evolved in
recent years generating a family of policy gradient methods that rely primarily
on a Gaussian distribution for modeling a stochastic policy. However, the
Gaussian distribution has an infinite support, whereas real world applications
usually have a bounded action space. This dissonance causes an estimation bias
that can be eliminated if the Beta distribution is used for the policy instead,
as it presents a finite support. In this work, we investigate how this Beta
policy performs when it is trained by the Proximal Policy Optimization (PPO)
algorithm on two continuous control tasks from OpenAI gym. For both tasks, the
Beta policy is superior to the Gaussian policy in terms of agent's final
expected reward, also showing more stability and faster convergence of the
training process. For the CarRacing environment with high-dimensional image
input, the agent's success rate was improved by 63% over the Gaussian policy.
- Abstract(参考訳): 近年,連続制御タスクの強化学習手法が発展し,確率的ポリシをモデル化するためのガウス分布に主に依存する政策勾配手法のファミリが生み出されている。
しかし、ガウス分布は無限のサポートを持つが、実世界の応用は通常有界な作用空間を持つ。
この不協和は、ベータ分布が代わりにポリシーに使用される場合、有限な支持を示すので排除できる推定バイアスを引き起こす。
本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,PPOアルゴリズムによってトレーニングされた場合の動作について検討する。
両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。
高次元画像入力を有するキャラクシング環境において,エージェントの成功率はガウスの方針より63%向上した。
関連論文リスト
- Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。
勾配がreパラメータ化トリックによって計算できる分布に限られる。
シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。
実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T04:30:51Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Bingham Policy Parameterization for 3D Rotations in Reinforcement
Learning [95.00518278458908]
強化学習における3次元回転を表現するための新しいポリシーパラメータ化を提案する。
提案したビンガムポリシパラメータ化(BPP)は,ビンガム分布をモデル化し,より良好な回転予測を可能にする。
我々は,ローテーションワフバ問題タスクのBPPと,RLBenchの視覚に基づくロボット操作タスクのセットを評価した。
論文 参考訳(メタデータ) (2022-02-08T16:09:02Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor
Critic under State Distribution Mismatch [29.02336004872336]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。