論文の概要: Proximal Policy Optimization with Continuous Bounded Action Space via
the Beta Distribution
- arxiv url: http://arxiv.org/abs/2111.02202v1
- Date: Wed, 3 Nov 2021 13:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:42:57.433672
- Title: Proximal Policy Optimization with Continuous Bounded Action Space via
the Beta Distribution
- Title(参考訳): 連続境界行動空間を用いたベータ分布による最適政策最適化
- Authors: Irving G. B. Petrazzini and Eric A. Antonelo
- Abstract要約: 本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,プロキシポリシー最適化アルゴリズムによってトレーニングされた場合の動作について検討する。
両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning methods for continuous control tasks have evolved in
recent years generating a family of policy gradient methods that rely primarily
on a Gaussian distribution for modeling a stochastic policy. However, the
Gaussian distribution has an infinite support, whereas real world applications
usually have a bounded action space. This dissonance causes an estimation bias
that can be eliminated if the Beta distribution is used for the policy instead,
as it presents a finite support. In this work, we investigate how this Beta
policy performs when it is trained by the Proximal Policy Optimization (PPO)
algorithm on two continuous control tasks from OpenAI gym. For both tasks, the
Beta policy is superior to the Gaussian policy in terms of agent's final
expected reward, also showing more stability and faster convergence of the
training process. For the CarRacing environment with high-dimensional image
input, the agent's success rate was improved by 63% over the Gaussian policy.
- Abstract(参考訳): 近年,連続制御タスクの強化学習手法が発展し,確率的ポリシをモデル化するためのガウス分布に主に依存する政策勾配手法のファミリが生み出されている。
しかし、ガウス分布は無限のサポートを持つが、実世界の応用は通常有界な作用空間を持つ。
この不協和は、ベータ分布が代わりにポリシーに使用される場合、有限な支持を示すので排除できる推定バイアスを引き起こす。
本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,PPOアルゴリズムによってトレーニングされた場合の動作について検討する。
両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。
高次元画像入力を有するキャラクシング環境において,エージェントの成功率はガウスの方針より63%向上した。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Bingham Policy Parameterization for 3D Rotations in Reinforcement
Learning [95.00518278458908]
強化学習における3次元回転を表現するための新しいポリシーパラメータ化を提案する。
提案したビンガムポリシパラメータ化(BPP)は,ビンガム分布をモデル化し,より良好な回転予測を可能にする。
我々は,ローテーションワフバ問題タスクのBPPと,RLBenchの視覚に基づくロボット操作タスクのセットを評価した。
論文 参考訳(メタデータ) (2022-02-08T16:09:02Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Block Policy Mirror Descent [40.2022466644885]
ブロックポリシミラー降下(BPMD)という新しいポリシークラス(PG)手法を提案する。
BPMDは、強い凸正則化を伴う正規化強化学習(RL)のクラスを解決するために用いられる。
強化学習におけるポリシー最適化のために,ブロック座標降下法が開発され,解析されたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-15T04:42:02Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor
Critic under State Distribution Mismatch [29.02336004872336]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。