論文の概要: Convergence of policy gradient methods for finite-horizon stochastic
linear-quadratic control problems
- arxiv url: http://arxiv.org/abs/2211.00617v2
- Date: Thu, 19 Oct 2023 12:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 21:12:10.201119
- Title: Convergence of policy gradient methods for finite-horizon stochastic
linear-quadratic control problems
- Title(参考訳): 有限水平確率線型2次制御問題に対するポリシー勾配法の収束性
- Authors: Michael Giegrich, Christoph Reisinger, Yufei Zhang
- Abstract要約: 有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
本稿では,離散時間ポリシーを持つ新しいPG法を提案する。このアルゴリズムは連続時間解析を活用し,動作周波数の異なる線形収束性を実現する。
- 参考スコア(独自算出の注目度): 3.8661825615213012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the global linear convergence of policy gradient (PG) methods for
finite-horizon continuous-time exploratory linear-quadratic control (LQC)
problems. The setting includes stochastic LQC problems with indefinite costs
and allows additional entropy regularisers in the objective. We consider a
continuous-time Gaussian policy whose mean is linear in the state variable and
whose covariance is state-independent. Contrary to discrete-time problems, the
cost is noncoercive in the policy and not all descent directions lead to
bounded iterates. We propose geometry-aware gradient descents for the mean and
covariance of the policy using the Fisher geometry and the Bures-Wasserstein
geometry, respectively. The policy iterates are shown to satisfy an a-priori
bound, and converge globally to the optimal policy with a linear rate. We
further propose a novel PG method with discrete-time policies. The algorithm
leverages the continuous-time analysis, and achieves a robust linear
convergence across different action frequencies. A numerical experiment
confirms the convergence and robustness of the proposed algorithm.
- Abstract(参考訳): 有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
この設定には、不定のコストを伴う確率的lqc問題が含まれ、目的に追加のエントロピー正則化が可能となる。
状態変数において平均が線型であり、共分散が状態独立である連続時間ガウスポリシーを考える。
離散時間問題とは対照的に、コストはポリシーにおいて非強制的であり、すべての降下方向が有界イテレートにつながるわけではない。
本稿では,フィッシャー幾何とビュール=ヴァッサーシュタイン幾何を用いて,政策の平均と共分散に対する幾何的勾配勾配勾配を求める。
ポリシーイテレートは、a-プリオリ境界を満たすことが示され、線形レートで最適ポリシーにグローバルに収束する。
さらに,離散時間ポリシーを用いた新しいPG手法を提案する。
このアルゴリズムは連続時間解析を活用し、異なる動作周波数にわたってロバストな線形収束を実現する。
数値実験により提案アルゴリズムの収束性と堅牢性を確認する。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。
様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:16:15Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems [3.7971225066055765]
本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。
アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
論文 参考訳(メタデータ) (2022-03-22T14:17:53Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。