論文の概要: Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control
- arxiv url: http://arxiv.org/abs/2206.08520v1
- Date: Fri, 17 Jun 2022 02:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:33:33.649692
- Title: Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control
- Title(参考訳): トンプソンサンプリングは線形二次制御において$\tilde o(\sqrt{t})$ regretを達成する
- Authors: Taylan Kargin, Sahin Lale, Kamyar Azizzadenesheli, Anima Anandkumar,
Babak Hassibi
- Abstract要約: 我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
- 参考スコア(独自算出の注目度): 85.22735611954694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson Sampling (TS) is an efficient method for decision-making under
uncertainty, where an action is sampled from a carefully prescribed
distribution which is updated based on the observed data. In this work, we
study the problem of adaptive control of stabilizable linear-quadratic
regulators (LQRs) using TS, where the system dynamics are unknown. Previous
works have established that $\tilde O(\sqrt{T})$ frequentist regret is optimal
for the adaptive control of LQRs. However, the existing methods either work
only in restrictive settings, require a priori known stabilizing controllers,
or utilize computationally intractable approaches. We propose an efficient TS
algorithm for the adaptive control of LQRs, TS-based Adaptive Control, TSAC,
that attains $\tilde O(\sqrt{T})$ regret, even for multidimensional systems,
thereby solving the open problem posed in Abeille and Lazaric (2018). TSAC does
not require a priori known stabilizing controller and achieves fast
stabilization of the underlying system by effectively exploring the environment
in the early stages. Our result hinges on developing a novel lower bound on the
probability that the TS provides an optimistic sample. By carefully prescribing
an early exploration strategy and a policy update rule, we show that TS
achieves order-optimal regret in adaptive control of multidimensional
stabilizable LQRs. We empirically demonstrate the performance and the
efficiency of TSAC in several adaptive control tasks.
- Abstract(参考訳): トンプソンサンプリング(英: thompson sampling、ts)は、不確実性下での効率的な意思決定方法であり、観測データに基づいて更新された注意深く定められた分布から作用をサンプリングする。
本研究では,システムダイナミクスが不明なTSを用いた安定化線形二次規制器(LQR)の適応制御問題について検討する。
以前の研究で、$\tilde O(\sqrt{T})$ frequentist regret が LQR の適応制御に最適であることが証明されている。
しかし、既存の手法は制限的な設定でのみ動作し、事前の既知の安定化コントローラを必要とするか、計算的に難解なアプローチを利用するかのいずれかである。
我々は,LQRの適応制御のための効率的なTSアルゴリズム,TS-based Adaptive Control, TSACを提案し, マルチ次元システムにおいても, $\tilde O(\sqrt{T})$ regretを達成した。
TSACは、既知の安定化コントローラを必要とせず、初期環境を効果的に探索することで基盤システムの迅速な安定化を実現する。
我々の結果は、TSが楽観的なサンプルを提供する確率に基づいた、新しい低い境界の開発に結びついている。
早期探索戦略と政策更新ルールを慎重に規定することにより,多次元安定化型lqrsの適応制御において,tsが秩序最適後悔を達成できることを実証する。
いくつかの適応制御タスクにおけるtsacの性能と効率を実証的に示す。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs [10.304902889192071]
多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
論文 参考訳(メタデータ) (2023-05-26T14:29:33Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。