論文の概要: Policy Optimization for Markovian Jump Linear Quadratic Control:
Gradient-Based Methods and Global Convergence
- arxiv url: http://arxiv.org/abs/2011.11852v1
- Date: Tue, 24 Nov 2020 02:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:32:01.579013
- Title: Policy Optimization for Markovian Jump Linear Quadratic Control:
Gradient-Based Methods and Global Convergence
- Title(参考訳): マルコフジャンプ線形二次制御の政策最適化:勾配法と大域収束
- Authors: Joao Paulo Jansch-Porto, Bin Hu, Geir Dullerud
- Abstract要約: 3種類のポリシー最適化手法が勾配でMJLSの最適状態コントローラに収束していることを示します。コントローラーでは、ジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプ
- 参考スコア(独自算出の注目度): 3.3343656101775365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, policy optimization for control purposes has received renewed
attention due to the increasing interest in reinforcement learning. In this
paper, we investigate the global convergence of gradient-based policy
optimization methods for quadratic optimal control of discrete-time Markovian
jump linear systems (MJLS). First, we study the optimization landscape of
direct policy optimization for MJLS, with static state feedback controllers and
quadratic performance costs. Despite the non-convexity of the resultant
problem, we are still able to identify several useful properties such as
coercivity, gradient dominance, and almost smoothness. Based on these
properties, we show global convergence of three types of policy optimization
methods: the gradient descent method; the Gauss-Newton method; and the natural
policy gradient method. We prove that all three methods converge to the optimal
state feedback controller for MJLS at a linear rate if initialized at a
controller which is mean-square stabilizing. Some numerical examples are
presented to support the theory. This work brings new insights for
understanding the performance of policy gradient methods on the Markovian jump
linear quadratic control problem.
- Abstract(参考訳): 近年,強化学習への関心が高まり,制御目的の政策最適化が注目されている。
本稿では,離散時間マルコフジャンプ線形システム(mjls)の二次最適制御のための勾配に基づくポリシー最適化手法のグローバル収束について検討する。
まず、静的状態フィードバックコントローラと2次性能コストを用いたMJLSの直接ポリシー最適化の最適化状況について検討する。
結果の非凸性にも拘わらず、保磁力、勾配支配、ほぼ滑らかさなどいくつかの有用な性質を同定することができる。
これらの特性に基づき, 勾配降下法, gauss-newton法, および自然政策勾配法という3種類のポリシー最適化法を大域的に収束させた。
平均二乗安定化であるコントローラを初期化した場合, 3つの手法が線形速度でMJLSの最適状態フィードバックコントローラに収束することを証明する。
いくつかの数値的な例が理論を支持するために提示される。
この研究はマルコフジャンプ線型二次制御問題におけるポリシー勾配法の性能を理解するための新たな洞察をもたらす。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - A Policy Gradient Framework for Stochastic Optimal Control Problems with
Global Convergence Guarantee [12.884132885360907]
最適制御問題に対するポリシー勾配法を連続的に検討する。
勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。
論文 参考訳(メタデータ) (2023-02-11T23:30:50Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Global Convergence Using Policy Gradient Methods for Model-free
Markovian Jump Linear Quadratic Control [8.98732207994362]
離散時間およびモデルフリーなマルコフジャンプ線形系の制御のための勾配に基づくポリシー最適化手法のグローバル収束性について検討する。
本研究では、勾配勾配勾配法と自然政策勾配法を用いて、政策のグローバル収束を示す。
論文 参考訳(メタデータ) (2021-11-30T09:26:26Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。