論文の概要: Equivalence of stochastic and deterministic policy gradients
- arxiv url: http://arxiv.org/abs/2505.23244v2
- Date: Tue, 10 Jun 2025 01:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 19:51:30.202245
- Title: Equivalence of stochastic and deterministic policy gradients
- Title(参考訳): 確率的および決定論的政策勾配の等価性
- Authors: Emo Todorov,
- Abstract要約: 勾配と決定論的政策勾配, 自然勾配, 状態値関数は同一であることを示す。
そこで我々は, 決定主義的な政策を持つMDPを構築するための一般的な手順を開発する。
この結果から,状態制御値関数ではなく,状態値関数を近似することでポリシメソッドを統一することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradients in continuous control have been derived for both stochastic and deterministic policies. Here we study the relationship between the two. In a widely-used family of MDPs involving Gaussian control noise and quadratic control costs, we show that the stochastic and deterministic policy gradients, natural gradients, and state value functions are identical; while the state-control value functions are different. We then develop a general procedure for constructing an MDP with deterministic policy that is equivalent to a given MDP with stochastic policy. The controls of this new MDP are the sufficient statistics of the stochastic policy in the original MDP. Our results suggest that policy gradient methods can be unified by approximating state value functions rather than state-control value functions.
- Abstract(参考訳): 継続的制御における政策勾配は確率的および決定論的政策の両方のために導出されてきた。
ここでは両者の関係について検討する。
ガウス制御ノイズと二次制御コストを含む多用途のMDPでは、確率的・決定論的政策勾配、自然勾配、状態値関数が同一であることを示し、状態制御値関数は異なる。
そこで我々は, 確率的ポリシを持つ所与のMDPと等価な決定論的ポリシを持つMDPを構築するための一般的な手順を開発する。
この新しいMDPの制御は、元のMDPの確率的政策の十分な統計である。
この結果から,状態制御値関数よりも状態値関数を近似することで,ポリシー勾配法を統一することが可能であることが示唆された。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - OffCon$^3$: What is state of the art anyway? [20.59974596074688]
モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。
TD3 は DPG から派生したもので、決定論的ポリシーを用いて値関数に沿ってポリシー上昇を行う。
OffCon$3$は、両方のアルゴリズムの最先端バージョンを特徴とするコードベースである。
論文 参考訳(メタデータ) (2021-01-27T11:45:08Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。