論文の概要: Revisiting LQR Control from the Perspective of Receding-Horizon Policy
Gradient
- arxiv url: http://arxiv.org/abs/2302.13144v3
- Date: Wed, 31 Jan 2024 20:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 20:02:45.693662
- Title: Revisiting LQR Control from the Perspective of Receding-Horizon Policy
Gradient
- Title(参考訳): レグレッション・水平政策グラディエントの観点からのLQR制御の再検討
- Authors: Xiangyuan Zhang, Tamer Ba\c{s}ar
- Abstract要約: 回帰水平政策勾配(RHPG)の観点から、離散時間線形二次規制(LQR)問題を再考する。
最適LQR解に対して安定化かつ$epsilon-closeの制御ポリシを学習するために,G の詳細なサンプル解析を行う。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit in this paper the discrete-time linear quadratic regulator (LQR)
problem from the perspective of receding-horizon policy gradient (RHPG), a
newly developed model-free learning framework for control applications. We
provide a fine-grained sample complexity analysis for RHPG to learn a control
policy that is both stabilizing and $\epsilon$-close to the optimal LQR
solution, and our algorithm does not require knowing a stabilizing control
policy for initialization. Combined with the recent application of RHPG in
learning the Kalman filter, we demonstrate the general applicability of RHPG in
linear control and estimation with streamlined analyses.
- Abstract(参考訳): 本稿では,制御アプリケーションのためのモデルフリー学習フレームワークであるreceding-horizon policy gradient(rhpg)の観点から,離散時間線形二次レギュレータ(lqr)問題を再検討する。
我々は,rhpg の最適 lqr 解に近い安定性および$\epsilon$ の制御ポリシーを学習するために,詳細なサンプル複雑性解析を行い,初期化のための安定化制御ポリシーを知る必要はない。
カルマンフィルタの学習におけるRHPGの最近の応用と組み合わせて、線形制御におけるRHPGの一般的な適用性および線形解析による推定を実証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for Model-free LQR [4.787550557970832]
LQR問題に対する政策勾配に基づくメタラーニング(MAML)アプローチの安定性とパーソナライズ保証を特徴付ける。
我々の理論的保証は、学習したコントローラが見えないLQRタスクに効率的に適応できることを示しています。
論文 参考訳(メタデータ) (2024-01-25T21:59:52Z) - Global Convergence of Receding-Horizon Policy Search in Learning
Estimator Designs [3.0811185425377743]
本稿では,Receding-Horizon Policy estimator (RHPG)アルゴリズムを提案する。
RHPGは、最適線形ポリシー推定器の学習において証明可能な大域収束を持つ最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-09-09T16:03:49Z) - Learning the Kalman Filter with Fine-Grained Sample Complexity [4.301206378997673]
離散時間無限水平カルマンフィルタにおけるモデルフリーポリシー勾配法(PG法)の最初のエンドツーエンドのサンプル複雑性を開発する。
本研究の結果は, 統計的ノイズ等により状態測定が破損しうる線形力学系を制御するために, モデルフリーPG法の適用に光を当てた。
論文 参考訳(メタデータ) (2023-01-30T02:41:18Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Robust Reinforcement Learning: A Case Study in Linear Quadratic
Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。
LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-08-25T11:11:28Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。