論文の概要: Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems
- arxiv url: http://arxiv.org/abs/2203.11758v1
- Date: Tue, 22 Mar 2022 14:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 15:36:37.211796
- Title: Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems
- Title(参考訳): 有限地平線連続時間確率制御問題に対するポリシー勾配法の線形収束
- Authors: Christoph Reisinger, Wolfgang Stockinger, Yufei Zhang
- Abstract要約: 本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。
アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
- 参考スコア(独自算出の注目度): 3.7971225066055765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its popularity in the reinforcement learning community, a provably
convergent policy gradient method for general continuous space-time stochastic
control problems has been elusive. This paper closes the gap by proposing a
proximal gradient algorithm for feedback controls of finite-time horizon
stochastic control problems. The state dynamics are continuous time nonlinear
diffusions with controlled drift and possibly degenerate noise, and the
objectives are nonconvex in the state and nonsmooth in the control. We prove
under suitable conditions that the algorithm converges linearly to a stationary
point of the control problem, and is stable with respect to policy updates by
approximate gradient steps. The convergence result justifies the recent
reinforcement learning heuristics that adding entropy regularization to the
optimization objective accelerates the convergence of policy gradient methods.
The proof exploits careful regularity estimates of backward stochastic
differential equations.
- Abstract(参考訳): 強化学習コミュニティでの人気にもかかわらず、一般的な連続時空確率制御問題に対する有理収束型政策勾配法が解明されている。
本稿では,有限時間地平線確率制御問題のフィードバック制御のための近位勾配アルゴリズムを提案することでギャップを閉じる。
状態ダイナミクスは、制御ドリフトと潜在的に縮退するノイズを伴う連続時間非線形拡散であり、その目的は、状態の非凸と制御の非滑らかである。
適切な条件下では、アルゴリズムが制御問題の定常点に線形収束し、近似勾配ステップによってポリシー更新に関して安定であることが証明される。
収束結果は、最適化目的にエントロピー正規化を追加することで、政策勾配法の収束を加速する最近の強化学習ヒューリスティックを正当化する。
この証明は後方確率微分方程式の注意的な正則性推定を利用する。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。
固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - A Policy Gradient Framework for Stochastic Optimal Control Problems with
Global Convergence Guarantee [12.884132885360907]
最適制御問題に対するポリシー勾配法を連続的に検討する。
勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。
論文 参考訳(メタデータ) (2023-02-11T23:30:50Z) - Convergence of policy gradient methods for finite-horizon exploratory
linear-quadratic control problems [3.8661825615213012]
有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
本稿では,離散時間ポリシーを持つ新しいPG法を提案する。このアルゴリズムは連続時間解析を活用し,動作周波数の異なる線形収束性を実現する。
論文 参考訳(メタデータ) (2022-11-01T17:31:41Z) - Point Cloud Denoising via Momentum Ascent in Gradient Fields [72.93429911044903]
ニューラルネットワークを用いて雑音点雲から勾配場を推定する勾配法を提案した。
そこで我々は, 過去の反復情報を利用して, 点の軌道を決定する運動量勾配上昇法を開発した。
実験により, 提案手法は, 様々な点群, ノイズタイプ, 騒音レベルを有する最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-21T10:21:40Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。