論文の概要: Meta-Learning Guarantees for Online Receding Horizon Learning Control
- arxiv url: http://arxiv.org/abs/2010.11327v14
- Date: Thu, 18 Feb 2021 18:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:19:10.647591
- Title: Meta-Learning Guarantees for Online Receding Horizon Learning Control
- Title(参考訳): オンラインリサイディング地平線学習制御のためのメタラーニング保証
- Authors: Deepan Muthirayan, Pramod P. Khargonekar
- Abstract要約: 本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we provide provable regret guarantees for an online
meta-learning receding horizon control algorithm in an iterative control
setting. We consider the setting where, in each iteration the system to be
controlled is a linear deterministic system that is different and unknown, the
cost for the controller in an iteration is a general additive cost function and
there are affine control input constraints. By analysing conditions under which
sub-linear regret is achievable, we prove that the meta-learning online
receding horizon controller achieves an average of the dynamic regret for the
controller cost that is $\tilde{O}((1+1/\sqrt{N})T^{3/4})$ with the number of
iterations $N$. Thus, we show that the worst regret for learning within an
iteration improves with experience of more iterations, with guarantee on rate
of improvement.
- Abstract(参考訳): 本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で実現可能な後悔の保証を提供する。
各イテレーションにおいて制御対象のシステムが異なる線形決定論的システムであり、繰り返しにおけるコントローラのコストが一般的な加算コスト関数であり、アフィン制御入力制約が存在する場合を考える。
サブ線形後悔が達成可能な条件を解析することにより、メタラーニングオンライン回帰水平制御器は、反復数$N$で$\tilde{O}((1+1/\sqrt{N})T^{3/4})$のコントローラコストに対する動的後悔の平均を達成できることを示す。
したがって、イテレーション内で学ぶことに対する最悪の後悔は、改善率の保証とともに、より多くのイテレーションの経験によって改善することを示します。
関連論文リスト
- Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret [1.529943343419486]
本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
論文 参考訳(メタデータ) (2022-10-17T09:29:01Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - A Meta-Learning Control Algorithm with Provable Finite-Time Guarantees [0.0]
オンラインメタ学習制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内での学習に対する最悪の後悔は、より多くのイテレーションの経験を積んで継続的に改善することを示しています。
論文 参考訳(メタデータ) (2020-08-30T20:30:40Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。