論文の概要: Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems
- arxiv url: http://arxiv.org/abs/2108.11959v1
- Date: Thu, 26 Aug 2021 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:01:58.249580
- Title: Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems
- Title(参考訳): 自己回帰外生系における有限時間システム同定と適応制御
- Authors: Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar
- Abstract要約: 未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
- 参考スコア(独自算出の注目度): 79.67879934935661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive exogenous (ARX) systems are the general class of input-output
dynamical systems used for modeling stochastic linear dynamical systems (LDS)
including partially observable LDS such as LQG systems. In this work, we study
the problem of system identification and adaptive control of unknown ARX
systems. We provide finite-time learning guarantees for the ARX systems under
both open-loop and closed-loop data collection. Using these guarantees, we
design adaptive control algorithms for unknown ARX systems with arbitrary
strongly convex or convex quadratic regulating costs. Under strongly convex
cost functions, we design an adaptive control algorithm based on online
gradient descent to design and update the controllers that are constructed via
a convex controller reparametrization. We show that our algorithm has
$\tilde{\mathcal{O}}(\sqrt{T})$ regret via explore and commit approach and if
the model estimates are updated in epochs using closed-loop data collection, it
attains the optimal regret of $\text{polylog}(T)$ after $T$ time-steps of
interaction. For the case of convex quadratic cost functions, we propose an
adaptive control algorithm that deploys the optimism in the face of uncertainty
principle to design the controller. In this setting, we show that the explore
and commit approach has a regret upper bound of $\tilde{\mathcal{O}}(T^{2/3})$,
and the adaptive control with continuous model estimate updates attains
$\tilde{\mathcal{O}}(\sqrt{T})$ regret after $T$ time-steps.
- Abstract(参考訳): 自己回帰外因性系 (ARX) は、LQGシステムのような部分的に観測可能な LDS を含む確率線形力学系 (LDS) のモデリングに用いられる入力出力力学系の一般的なクラスである。
本研究では,未知のARXシステムのシステム識別と適応制御の問題について検討する。
オープンループとクローズドループの両方のデータ収集を行うarxシステムに対して,有限時間学習保証を提供する。
これらの保証を用いて、任意に強い凸あるいは凸2次規制コストを持つ未知のARXシステムの適応制御アルゴリズムを設計する。
強い凸コスト関数の下で,オンライン勾配降下に基づく適応制御アルゴリズムを設計し,凸制御再パラメータ化により構築したコントローラの設計と更新を行う。
我々のアルゴリズムは探索とコミットのアプローチによって$\tilde{\mathcal{O}}(\sqrt{T})$後悔していることを示し、もしモデル推定が閉ループデータ収集を用いてエポックで更新された場合、相互作用の時間ステップの後に$\text{polylog}(T)$を最適に後悔する。
凸2次コスト関数の場合、制御器の設計の不確実性原理に直面して最適化を展開させる適応制御アルゴリズムを提案する。
この設定では、探索とコミットのアプローチは、$\tilde{\mathcal{O}}(T^{2/3})$の後悔の上界を持ち、連続モデル推定更新による適応制御は、$T$タイムステップの後に$\tilde{\mathcal{O}}(T^{2/3})$後悔することを示す。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret [1.529943343419486]
本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
論文 参考訳(メタデータ) (2022-10-17T09:29:01Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Identification and Adaptive Control of Markov Jump Systems: Sample
Complexity and Regret Bounds [24.74448154832031]
本稿では,未知のマルコフジャンプ線形系 (MJS) を2次目的に最適化する問題を考える。
まず,MJSが各モードの力学を学習するためのシステム識別アルゴリズムを提案する。
そこで本研究では,システム識別と等価な制御を併用した適応制御方式を提案する。
論文 参考訳(メタデータ) (2021-11-13T02:38:13Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。