論文の概要: Convergence of policy gradient methods for finite-horizon stochastic
linear-quadratic control problems
- arxiv url: http://arxiv.org/abs/2211.00617v1
- Date: Tue, 1 Nov 2022 17:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:54:14.998792
- Title: Convergence of policy gradient methods for finite-horizon stochastic
linear-quadratic control problems
- Title(参考訳): 有限水平確率線型2次制御問題に対するポリシー勾配法の収束性
- Authors: Michael Giegrich, Christoph Reisinger, Yufei Zhang
- Abstract要約: 有限水平探索線形四元数制御(LQC)問題に対する政策勾配法の大域的線形収束について検討する。
我々は、状態変数において平均が線型であり、共分散が状態独立である連続時間ガウスポリシーを考える。
本稿では、フィッシャー幾何とビュール=ワッサーシュタイン幾何を用いた政策の平均と共分散に対する幾何的勾配勾配勾配について提案する。
- 参考スコア(独自算出の注目度): 3.7971225066055765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the global linear convergence of policy gradient (PG) methods for
finite-horizon exploratory linear-quadratic control (LQC) problems. The setting
includes stochastic LQC problems with indefinite costs and allows additional
entropy regularisers in the objective. We consider a continuous-time Gaussian
policy whose mean is linear in the state variable and whose covariance is
state-independent. Contrary to discrete-time problems, the cost is noncoercive
in the policy and not all descent directions lead to bounded iterates. We
propose geometry-aware gradient descents for the mean and covariance of the
policy using the Fisher geometry and the Bures-Wasserstein geometry,
respectively. The policy iterates are shown to satisfy an a-priori bound, and
converge globally to the optimal policy with a linear rate. We further propose
a novel PG method with discrete-time policies. The algorithm leverages the
continuous-time analysis, and achieves a robust linear convergence across
different action frequencies. A numerical experiment confirms the convergence
and robustness of the proposed algorithm.
- Abstract(参考訳): 有限水平探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
この設定には、不定のコストを伴う確率的lqc問題が含まれ、目的に追加のエントロピー正則化が可能となる。
状態変数において平均が線型であり、共分散が状態独立である連続時間ガウスポリシーを考える。
離散時間問題とは対照的に、コストはポリシーにおいて非強制的であり、すべての降下方向が有界イテレートにつながるわけではない。
本稿では,フィッシャー幾何とビュール=ヴァッサーシュタイン幾何を用いて,政策の平均と共分散に対する幾何的勾配勾配勾配を求める。
ポリシーイテレートは、a-プリオリ境界を満たすことが示され、線形レートで最適ポリシーにグローバルに収束する。
さらに,離散時間ポリシーを用いた新しいPG手法を提案する。
このアルゴリズムは連続時間解析を活用し、異なる動作周波数にわたってロバストな線形収束を実現する。
数値実験により提案アルゴリズムの収束性と堅牢性を確認する。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Sharp high-probability sample complexities for policy evaluation with
linear function approximation [99.51752176624818]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。
様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:16:15Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Convergence and sample complexity of natural policy gradient primal-dual
methods for constrained MDPs [24.582720609592464]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems [3.7971225066055765]
本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。
アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
論文 参考訳(メタデータ) (2022-03-22T14:17:53Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。