論文の概要: Almost Surely $\sqrt{T}$ Regret Bound for Adaptive LQR
- arxiv url: http://arxiv.org/abs/2301.05537v2
- Date: Tue, 18 Apr 2023 13:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 17:56:39.947148
- Title: Almost Surely $\sqrt{T}$ Regret Bound for Adaptive LQR
- Title(参考訳): ほぼ確実に$\sqrt{T}$ Regret Bound for Adaptive LQR
- Authors: Yiwen Lu and Yilin Mo
- Abstract要約: ほぼ確実に$tilde MathcalO(sqrtT)$ regret upper boundを持つ適応型LQRコントローラを提案する。
コントローラは、潜在的な安全違反を回避し、パラメータ推定の収束を保証する回路破壊機構を備えている。
- 参考スコア(独自算出の注目度): 2.72434489773245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Linear-Quadratic Regulation (LQR) problem with unknown system parameters
has been widely studied, but it has remained unclear whether $\tilde{
\mathcal{O}}(\sqrt{T})$ regret, which is the best known dependence on time, can
be achieved almost surely. In this paper, we propose an adaptive LQR controller
with almost surely $\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper bound. The
controller features a circuit-breaking mechanism, which circumvents potential
safety breach and guarantees the convergence of the system parameter estimate,
but is shown to be triggered only finitely often and hence has negligible
effect on the asymptotic performance of the controller. The proposed controller
is also validated via simulation on Tennessee Eastman Process~(TEP), a commonly
used industrial process example.
- Abstract(参考訳): 未知のシステムパラメータを持つLQR(Linear-Quadratic Regulation)問題は広く研究されているが、最もよく知られた時間依存である $\tilde{ \mathcal{O}}(\sqrt{T})$ regret がほぼ確実に達成できるかどうかは不明である。
本稿では,ほぼ確実に$\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper boundを持つ適応型LQRコントローラを提案する。
制御器は、潜在的な安全違反を回避し、システムパラメータ推定の収束を保証する回路破壊機構を備えているが、有限回のみトリガされることが示され、したがって制御器の漸近性能に無視できる効果がある。
提案されたコントローラは、よく使われる工業プロセスの例であるテネシー・イーストマン・プロセス~(tep)のシミュレーションによっても検証される。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs [10.304902889192071]
多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
論文 参考訳(メタデータ) (2023-05-26T14:29:33Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。