論文の概要: Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting
- arxiv url: http://arxiv.org/abs/2003.05999v2
- Date: Wed, 24 Jun 2020 02:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:23:46.366316
- Title: Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting
- Title(参考訳): 線形二次ガウス(lqg)設定における適応制御と後悔最小化
- Authors: Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar
- Abstract要約: 我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
- 参考スコア(独自算出の注目度): 91.43582419264763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of adaptive control in partially observable linear
quadratic Gaussian control systems, where the model dynamics are unknown a
priori. We propose LqgOpt, a novel reinforcement learning algorithm based on
the principle of optimism in the face of uncertainty, to effectively minimize
the overall control cost. We employ the predictor state evolution
representation of the system dynamics and deploy a recently proposed
closed-loop system identification method, estimation, and confidence bound
construction. LqgOpt efficiently explores the system dynamics, estimates the
model parameters up to their confidence interval, and deploys the controller of
the most optimistic model for further exploration and exploitation. We provide
stability guarantees for LqgOpt and prove the regret upper bound of
$\tilde{\mathcal{O}}(\sqrt{T})$ for adaptive control of linear quadratic
Gaussian (LQG) systems, where $T$ is the time horizon of the problem.
- Abstract(参考訳): モデルダイナミクスが未知である部分可観測線形二次ガウス制御系における適応制御の問題について検討する。
我々は,不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案し,全体の制御コストを効果的に最小化する。
我々は,システムダイナミクスの予測子状態進化表現を用い,最近提案する閉ループシステム同定法,推定法,信頼境界構築法を展開する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、さらなる探索と利用のために最も楽観的なモデルのコントローラをデプロイする。
我々は、lqgopt に対する安定性保証を提供し、線形二次ガウス系(lqg)の適応制御に対する $\tilde{\mathcal{o}}(\sqrt{t})$ の後悔の上限を証明し、ここで $t$ は問題の時間軸である。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - LQGNet: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic
Control [24.413595920205907]
二次制御は、不確実性のある環境で、力学系のための最適な制御信号を見つけることを扱う。
LQGNetは、部分的に知られた動的操作のためにデータを活用するコントローラである。
LQGNetは、ミスマッチしたSSモデルを克服することで、古典的な制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T17:59:51Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。