論文の概要: Global Convergence Using Policy Gradient Methods for Model-free
Markovian Jump Linear Quadratic Control
- arxiv url: http://arxiv.org/abs/2111.15228v1
- Date: Tue, 30 Nov 2021 09:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:18:45.447394
- Title: Global Convergence Using Policy Gradient Methods for Model-free
Markovian Jump Linear Quadratic Control
- Title(参考訳): モデルフリーマルコフジャンプ線形二次制御のためのポリシー勾配法による大域収束
- Authors: Santanu Rathod, Manoj Bhadu, Abir De
- Abstract要約: 離散時間およびモデルフリーなマルコフジャンプ線形系の制御のための勾配に基づくポリシー最適化手法のグローバル収束性について検討する。
本研究では、勾配勾配勾配法と自然政策勾配法を用いて、政策のグローバル収束を示す。
- 参考スコア(独自算出の注目度): 8.98732207994362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Owing to the growth of interest in Reinforcement Learning in the last few
years, gradient based policy control methods have been gaining popularity for
Control problems as well. And rightly so, since gradient policy methods have
the advantage of optimizing a metric of interest in an end-to-end manner, along
with being relatively easy to implement without complete knowledge of the
underlying system. In this paper, we study the global convergence of
gradient-based policy optimization methods for quadratic control of
discrete-time and model-free Markovian jump linear systems (MJLS). We surmount
myriad challenges that arise because of more than one states coupled with lack
of knowledge of the system dynamics and show global convergence of the policy
using gradient descent and natural policy gradient methods. We also provide
simulation studies to corroborate our claims.
- Abstract(参考訳): 近年,強化学習への関心の高まりにより,グラデーションベースの政策管理手法が制御問題にも人気が高まっている。
そのようにして、勾配ポリシー手法は、エンド・ツー・エンドの方法で関心度を最適化する利点があり、基礎となるシステムの完全な知識なしに比較的簡単に実装できる。
本稿では,離散時間およびモデルフリーマルコフジャンプ線形システム(mjls)の二次制御のための勾配に基づくポリシー最適化手法のグローバル収束について検討する。
我々は,システムダイナミクスに関する知識の欠如と,複数の状態が組み合わさって生じる無数の課題を克服し,勾配降下法と自然政策勾配法を用いて,政策のグローバル収束を示す。
また、我々の主張を裏付けるシミュレーション研究も行っている。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Global Convergence of Policy Gradient Methods in Reinforcement Learning,
Games and Control [38.10940311690513]
政策勾配法は、強化学習、ゲーム、制御におけるシーケンシャルな意思決定にますます人気がある。
ポリシー勾配法の大域的最適性を保証することは、値関数の非凹凸のため、非常に非自明である。
論文 参考訳(メタデータ) (2023-10-08T16:54:25Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Policy Optimization for Markovian Jump Linear Quadratic Control:
Gradient-Based Methods and Global Convergence [3.3343656101775365]
3種類のポリシー最適化手法が勾配でMJLSの最適状態コントローラに収束していることを示します。コントローラーでは、ジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプ
論文 参考訳(メタデータ) (2020-11-24T02:39:38Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。