論文の概要: A Meta-Learning Control Algorithm with Provable Finite-Time Guarantees
- arxiv url: http://arxiv.org/abs/2008.13265v6
- Date: Fri, 4 Feb 2022 02:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:01:22.888482
- Title: A Meta-Learning Control Algorithm with Provable Finite-Time Guarantees
- Title(参考訳): 確率的有限時間保証を用いたメタ学習制御アルゴリズム
- Authors: Deepan Muthirayan and Pramod Khargonekar
- Abstract要約: オンラインメタ学習制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内での学習に対する最悪の後悔は、より多くのイテレーションの経験を積んで継続的に改善することを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we provide provable regret guarantees for an online
meta-learning control algorithm in an iterative control setting, where in each
iteration the system to be controlled is a linear deterministic system that is
different and unknown, the cost for the controller in an iteration is a general
additive cost function and the control input is required to be constrained,
which if violated incurs an additional cost. We prove (i) that the algorithm
achieves a regret for the controller cost and constraint violation that are
$O(T^{3/4})$ for an episode of duration $T$ with respect to the best policy
that satisfies the control input control constraints and (ii) that the average
of the regret for the controller cost and constraint violation with respect to
the same policy vary as $O((1+\log(N)/N)T^{3/4})$ with the number of iterations
$N$, showing that the worst regret for the learning within an iteration
continuously improves with experience of more iterations.
- Abstract(参考訳): 本研究は, オンラインメタ学習制御アルゴリズムの繰り返し制御において, 制御対象のシステムが異なる線形決定論的システムであり, 繰り返しにおけるコントローラのコストは一般的な加算コスト関数であり, 制御入力の制約が要求される場合, 追加コストが発生する。
証明します
i) 制御入力制御制約を満たす最良のポリシーに関して、一定期間のT$に対して$O(T^{3/4})$$のコントローラコストと制約違反を後悔するアルゴリズムを実現すること。
(ii)同じポリシーに関して、コントローラコストと制約違反に対する後悔の平均値は、反復数で$O((1+\log(N)/N)T^{3/4})$と異なり、イテレーション内の学習における最悪の後悔は、より多くのイテレーションの経験から継続的に改善されることを示す。
関連論文リスト
- Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs [10.304902889192071]
多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
論文 参考訳(メタデータ) (2023-05-26T14:29:33Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Meta-Learning Guarantees for Online Receding Horizon Learning Control [0.0]
本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
論文 参考訳(メタデータ) (2020-10-21T21:57:04Z) - Safety-Critical Online Control with Adversarial Disturbances [8.633140051496408]
我々は、乱れによって生じるコストを最小限に抑えるために、状態フィードバックコントローラを合成することを模索する。
我々は、当時のコントローラが選択された後のみ、各時点のコストが明らかにされるオンライン環境について検討する。
これらのコストの差として定義される後悔関数は、時間的地平線と対数的に異なることを示す。
論文 参考訳(メタデータ) (2020-09-20T19:59:15Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。