論文の概要: Nonasymptotic Regret Analysis of Adaptive Linear Quadratic Control with Model Misspecification
- arxiv url: http://arxiv.org/abs/2401.00073v2
- Date: Tue, 21 May 2024 22:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:46:15.496427
- Title: Nonasymptotic Regret Analysis of Adaptive Linear Quadratic Control with Model Misspecification
- Title(参考訳): モデルミス種別を用いた適応線形二次制御の漸近回帰解析
- Authors: Bruce D. Lee, Anders Rantzer, Nikolai Matni,
- Abstract要約: 本研究では,学習者が基礎行列の集合について事前知識を持つ設定において,適応線形二次制御問題について検討する。
この基礎は、基礎となるデータ生成プロセスのダイナミックスを完全に表現できないという意味で、誤解されている。
本稿では,この先行知識を用いたアルゴリズムを提案し,システムとのT$相互作用の後に期待される後悔の上限を証明した。
- 参考スコア(独自算出の注目度): 4.40710165699808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The strategy of pre-training a large model on a diverse dataset, then fine-tuning for a particular application has yielded impressive results in computer vision, natural language processing, and robotic control. This strategy has vast potential in adaptive control, where it is necessary to rapidly adapt to changing conditions with limited data. Toward concretely understanding the benefit of pre-training for adaptive control, we study the adaptive linear quadratic control problem in the setting where the learner has prior knowledge of a collection of basis matrices for the dynamics. This basis is misspecified in the sense that it cannot perfectly represent the dynamics of the underlying data generating process. We propose an algorithm that uses this prior knowledge, and prove upper bounds on the expected regret after $T$ interactions with the system. In the regime where $T$ is small, the upper bounds are dominated by a term that scales with either $\texttt{poly}(\log T)$ or $\sqrt{T}$, depending on the prior knowledge available to the learner. When $T$ is large, the regret is dominated by a term that grows with $\delta T$, where $\delta$ quantifies the level of misspecification. This linear term arises due to the inability to perfectly estimate the underlying dynamics using the misspecified basis, and is therefore unavoidable unless the basis matrices are also adapted online. However, it only dominates for large $T$, after the sublinear terms arising due to the error in estimating the weights for the basis matrices become negligible. We provide simulations that validate our analysis. Our simulations also show that offline data from a collection of related systems can be used as part of a pre-training stage to estimate a misspecified dynamics basis, which is in turn used by our adaptive controller.
- Abstract(参考訳): 多様なデータセット上で大規模なモデルを事前トレーニングし、特定のアプリケーションのために微調整するという戦略は、コンピュータビジョン、自然言語処理、ロボット制御において印象的な結果をもたらした。
この戦略は適応制御において大きな可能性を秘めており、限られたデータで変化する条件に迅速に適応する必要がある。
適応制御のための事前学習の利点を具体的に理解するために,学習者が基礎行列の集合について事前知識を持つ設定において,適応線形二次制御問題について検討する。
この基礎は、基礎となるデータ生成プロセスのダイナミックスを完全に表現できないという意味で、誤解されている。
本稿では,この先行知識を用いたアルゴリズムを提案し,システムとのT$相互作用の後に期待される後悔の上限を証明した。
T$ が小さければ、上位境界は $\texttt{poly}(\log T)$ または $\sqrt{T}$ でスケールする項で支配される。
T$が大きければ、その後悔は$\delta T$で成長する項に支配され、$\delta$は誤特定のレベルを定量化する。
この線形項は、不特定基底を用いて基礎となる力学を完璧に推定できないために生じ、したがって基底行列がオンラインにも適用されない限り避けられない。
しかし、これは、基底行列の重みを推定する誤差によって生じる部分線型項が無視されるため、大きな$T$でしか支配しない。
分析を検証するためのシミュレーションを提供する。
また,本シミュレーションでは,関連するシステム群からのオフラインデータを事前学習段階の一部として使用することにより,不特定な動的特性を推定し,適応制御器が利用することを示す。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - Analysis of feature learning in weight-tied autoencoders via the mean
field lens [3.553493344868413]
平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
論文 参考訳(メタデータ) (2021-02-16T18:58:37Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z) - Implicit Regularization and Momentum Algorithms in Nonlinearly
Parameterized Adaptive Control and Prediction [13.860437051795419]
我々は,古典的適応非線形制御技術と最近の機械学習の進歩との間に強いつながりを生かしている。
適応的非線形制御と適応的ダイナミクス予測の両方において,アルゴリズム開発には未発達の可能性があることが示されている。
論文 参考訳(メタデータ) (2019-12-31T03:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。