論文の概要: Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs
- arxiv url: http://arxiv.org/abs/2305.16974v1
- Date: Fri, 26 May 2023 14:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:16:27.700327
- Title: Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs
- Title(参考訳): 外部入力を用いた自己回帰システムの最小分散制御のための有限時間後悔限
- Authors: Rahul Singh, Akshay Mete, Avik Kar, P. R. Kumar
- Abstract要約: 多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
- 参考スコア(独自算出の注目度): 10.304902889192071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum variance controllers have been employed in a wide-range of industrial
applications. A key challenge experienced by many adaptive controllers is their
poor empirical performance in the initial stages of learning. In this paper, we
address the problem of initializing them so that they provide acceptable
transients, and also provide an accompanying finite-time regret analysis, for
adaptive minimum variance control of an auto-regressive system with exogenous
inputs (ARX). Following [3], we consider a modified version of the Certainty
Equivalence (CE) adaptive controller, which we call PIECE, that utilizes
probing inputs for exploration. We show that it has a $C \log T$ bound on the
regret after $T$ time-steps for bounded noise, and $C\log^2 T$ in the case of
sub-Gaussian noise. The simulation results demonstrate the advantage of PIECE
over the algorithm proposed in [3] as well as the standard Certainty
Equivalence controller especially in the initial learning phase. To the best of
our knowledge, this is the first work that provides finite-time regret bounds
for an adaptive minimum variance controller.
- Abstract(参考訳): 最小分散制御器は幅広い産業用途で採用されている。
多くの適応コントローラが経験する重要な課題は、学習の初期段階における経験的パフォーマンスの低さである。
本稿では,これらを初期化して許容的な過渡性を提供するとともに,それに伴う有限時間後悔解析を行い,外因性入力(ARX)を持つ自己回帰システムの適応最小分散制御を行う。
3]に従うと、探索に探索入力を利用するPIECEと呼ばれるCertainty Equivalence (CE)適応コントローラの修正版を考える。
有界雑音に対するt$の時間ステップの後、後悔に縛られた$c \log t$と、サブガウス雑音の場合には$c\log^2 t$を持つことを示す。
シミュレーションの結果、[3]で提案したアルゴリズムと、特に初期学習フェーズにおける標準Certainty Equivalenceコントローラに対するPIECEの利点が示された。
我々の知る限りでは、適応最小分散制御器に対して有限時間後悔境界を提供する最初の研究である。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。