論文の概要: On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces
- arxiv url: http://arxiv.org/abs/2201.12332v2
- Date: Mon, 31 Jan 2022 03:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 12:40:24.370446
- Title: On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces
- Title(参考訳): 連続行動空間における政策鏡の隠れバイアスについて
- Authors: Amrit Singh Bedi, Souradip Chakraborty, Anjaly Parayil, Brian Sadler,
Pratap Tokekar, Alec Koppel
- Abstract要約: 重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
- 参考スコア(独自算出の注目度): 23.186300629667134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on parameterized policy search for reinforcement learning over
continuous action spaces. Typically, one assumes the score function associated
with a policy is bounded, which fails to hold even for Gaussian policies. To
properly address this issue, one must introduce an exploration tolerance
parameter to quantify the region in which it is bounded. Doing so incurs a
persistent bias that appears in the attenuation rate of the expected policy
gradient norm, which is inversely proportional to the radius of the action
space. To mitigate this hidden bias, heavy-tailed policy parameterizations may
be used, which exhibit a bounded score function, but doing so can cause
instability in algorithmic updates. To address these issues, in this work, we
study the convergence of policy gradient algorithms under heavy-tailed
parameterizations, which we propose to stabilize with a combination of mirror
ascent-type updates and gradient tracking. Our main theoretical contribution is
the establishment that this scheme converges with constant step and batch
sizes, whereas prior works require these parameters to respectively shrink to
null or grow to infinity. Experimentally, this scheme under a heavy-tailed
policy parameterization yields improved reward accumulation across a variety of
settings as compared with standard benchmarks.
- Abstract(参考訳): 連続行動空間上での強化学習のためのパラメータ化政策探索に着目した。
典型的には、ポリシーに関連するスコア関数は有界であると仮定するが、ガウスのポリシーでさえ保持できない。
この問題に適切に対処するには、境界のある領域を定量化する探索許容パラメータを導入する必要がある。
このようなことは、期待される方針勾配ノルムの減衰率に現れる永続的なバイアスを生じさせ、これは作用空間の半径に逆比例する。
この隠れたバイアスを軽減するために、境界スコア関数を示すヘビーテールのポリシーパラメータ化が用いられるが、アルゴリズム更新の不安定性を引き起こす可能性がある。
そこで本研究では,重み付きパラメータ化下でのポリシー勾配アルゴリズムの収束について検討し,ミラーアセント型更新と勾配追跡を組み合わせることで安定化する手法を提案する。
我々の理論的な主な貢献は、このスキームが一定のステップとバッチサイズに収束すること、一方、以前の研究ではこれらのパラメータをそれぞれnullに縮小するか無限大に成長させる必要があることである。
実験的に、重み付きポリシーパラメータ化の下でこのスキームは、標準ベンチマークと比べて様々な設定で報酬の蓄積が改善される。
関連論文リスト
- Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。
勾配がreパラメータ化トリックによって計算できる分布に限られる。
シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。
実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T04:30:51Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。