論文の概要: Online Learning for Receding Horizon Control with Provable Regret
Guarantees
- arxiv url: http://arxiv.org/abs/2111.15041v1
- Date: Tue, 30 Nov 2021 00:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:51:04.961867
- Title: Online Learning for Receding Horizon Control with Provable Regret
Guarantees
- Title(参考訳): 後悔を保証できるオンライン学習による地平線制御
- Authors: Deepan Muthirayan, Jianjun Yuan, Dileep Kalathil, and Pramod P.
Khargonekar
- Abstract要約: 本稿では,未知の線形力学系を時間的に異なるコスト関数で制御する学習の問題に対処する。
制御アルゴリズムが真のシステムモデルを理解しておらず、将来のコスト関数の固定長プレビューにしかアクセスできないような設定について検討する。
我々は O-RHC アルゴリズムが $mathcalO(T2/3)$ dynamic regret を実現するが、さらなる計算が可能であることを示す。
- 参考スコア(独自算出の注目度): 6.247268652296233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of learning to control an unknown linear dynamical
system with time varying cost functions through the framework of online
Receding Horizon Control (RHC). We consider the setting where the control
algorithm does not know the true system model and has only access to a
fixed-length (that does not grow with the control horizon) preview of the
future cost functions. We characterize the performance of an algorithm using
the metric of dynamic regret, which is defined as the difference between the
cumulative cost incurred by the algorithm and that of the best sequence of
actions in hindsight. We propose two different online RHC algorithms to address
this problem, namely Certainty Equivalence RHC (CE-RHC) algorithm and
Optimistic RHC (O-RHC) algorithm. We show that under the standard stability
assumption for the model estimate, the CE-RHC algorithm achieves
$\mathcal{O}(T^{2/3})$ dynamic regret. We then extend this result to the
setting where the stability assumption hold only for the true system model by
proposing the O-RHC algorithm. We show that O-RHC algorithm achieves
$\mathcal{O}(T^{2/3})$ dynamic regret but with some additional computation.
- Abstract(参考訳): 本稿では,オンラインReceding Horizon Control (RHC) の枠組みを用いて,時間的に異なるコスト関数で未知の線形力学系を制御することの課題に対処する。
我々は、制御アルゴリズムが真のシステムモデルを理解しておらず、将来のコスト関数のプレビューを固定長(制御地平線では成長しない)にのみアクセスする設定を考える。
本稿では,動的後悔の計量を用いてアルゴリズムの性能を特徴付ける。これは,アルゴリズムが生み出す累積コストと,後向きの最良の行動列との差として定義される。
本稿では,この問題を解決するために,Certainty Equivalence RHC(CE-RHC)アルゴリズムとOptimistic RHC(O-RHC)アルゴリズムの2つの異なるオンラインRHCアルゴリズムを提案する。
モデル推定の標準的な安定性仮定の下で、CE-RHCアルゴリズムは$\mathcal{O}(T^{2/3})$ dynamic regretを達成する。
この結果は、O-RHCアルゴリズムの提案により、安定性仮定が真のシステムモデルにのみ適用されるような設定にまで拡張する。
我々は O-RHC アルゴリズムが $\mathcal{O}(T^{2/3})$ dynamic regret を実現するが、さらなる計算を行う。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。