論文の概要: Truly Deterministic Policy Optimization
- arxiv url: http://arxiv.org/abs/2205.15379v1
- Date: Mon, 30 May 2022 18:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:57:42.404320
- Title: Truly Deterministic Policy Optimization
- Title(参考訳): 真に決定論的政策最適化
- Authors: Ehsan Saleh, Saba Ghaffari, Timothy Bretl, Matthew West
- Abstract要約: 本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
- 参考スコア(独自算出の注目度): 3.07015565161719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a policy gradient method that avoids exploratory
noise injection and performs policy search over the deterministic landscape. By
avoiding noise injection all sources of estimation variance can be eliminated
in systems with deterministic dynamics (up to the initial state distribution).
Since deterministic policy regularization is impossible using traditional
non-metric measures such as the KL divergence, we derive a Wasserstein-based
quadratic model for our purposes. We state conditions on the system model under
which it is possible to establish a monotonic policy improvement guarantee,
propose a surrogate function for policy gradient estimation, and show that it
is possible to compute exact advantage estimates if both the state transition
model and the policy are deterministic. Finally, we describe two novel robotic
control environments -- one with non-local rewards in the frequency domain and
the other with a long horizon (8000 time-steps) -- for which our policy
gradient method (TDPO) significantly outperforms existing methods (PPO, TRPO,
DDPG, and TD3). Our implementation with all the experimental settings is
available at https://github.com/ehsansaleh/code_tdpo
- Abstract(参考訳): 本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
ノイズ注入を避けることで、決定論的力学(初期状態分布まで)を持つシステムにおいて、全ての推定分散源を排除できる。
KLの発散のような従来の非計量測度を用いることで決定論的ポリシー正則化は不可能であるため、我々はワッサーシュタインに基づく二次モデルを導出する。
我々は,単調な政策改善保証を確立することが可能なシステムモデル上の条件を述べるとともに,政策勾配推定のためのサロゲート関数を提案し,状態遷移モデルと方針が決定論的であれば,正確な有利な推定を計算可能であることを示す。
最後に,2つの新しいロボット制御環境について述べる。1つは周波数領域に非局所的な報酬が与えられ,もう1つは長地平線(8000時間ステップ)を持つもので,その場合のポリシー勾配法(tdpo)は既存の手法(ppo,trpo,ddpg,td3)を大きく上回っている。
実験的な設定はすべて、https://github.com/ehsansaleh/code_tdpoで実装できます。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。