論文の概要: Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems
- arxiv url: http://arxiv.org/abs/2111.03772v1
- Date: Sat, 6 Nov 2021 01:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:53:13.697353
- Title: Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems
- Title(参考訳): 非定常線形力学系の制御のための動的後悔最小化
- Authors: Yuwei Luo, Varun Gupta, Mladen Kolar
- Abstract要約: 本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
- 参考スコア(独自算出の注目度): 18.783925692307054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of controlling a Linear Quadratic Regulator (LQR)
system over a finite horizon $T$ with fixed and known cost matrices $Q,R$, but
unknown and non-stationary dynamics $\{A_t, B_t\}$. The sequence of dynamics
matrices can be arbitrary, but with a total variation, $V_T$, assumed to be
$o(T)$ and unknown to the controller. Under the assumption that a sequence of
stabilizing, but potentially sub-optimal controllers is available for all $t$,
we present an algorithm that achieves the optimal dynamic regret of
$\tilde{\mathcal{O}}\left(V_T^{2/5}T^{3/5}\right)$. With piece-wise constant
dynamics, our algorithm achieves the optimal regret of
$\tilde{\mathcal{O}}(\sqrt{ST})$ where $S$ is the number of switches. The crux
of our algorithm is an adaptive non-stationarity detection strategy, which
builds on an approach recently developed for contextual Multi-armed Bandit
problems. We also argue that non-adaptive forgetting (e.g., restarting or using
sliding window learning with a static window size) may not be regret optimal
for the LQR problem, even when the window size is optimally tuned with the
knowledge of $V_T$. The main technical challenge in the analysis of our
algorithm is to prove that the ordinary least squares (OLS) estimator has a
small bias when the parameter to be estimated is non-stationary. Our analysis
also highlights that the key motif driving the regret is that the LQR problem
is in spirit a bandit problem with linear feedback and locally quadratic cost.
This motif is more universal than the LQR problem itself, and therefore we
believe our results should find wider application.
- Abstract(参考訳): 固定的かつ既知のコスト行列が$Q,R$であるが、未知かつ非定常なダイナミクスが$\{A_t, B_t\}$である有限地平線上の線形二次レギュレータ(LQR)システムを制御する問題を考える。
ダイナミクス行列の列は任意であるが、全体の変動値である$v_t$ は、コントローラに$o(t)$と仮定され、未知である。
安定化されるが、潜在的に最適でないコントローラが全ての$t$で利用できるという仮定の下で、$\tilde{\mathcal{O}}\left(V_T^{2/5}T^{3/5}\right)$の最適動的後悔を達成するアルゴリズムを提案する。
分割的な定数ダイナミクスでは、アルゴリズムは$s$がスイッチ数である$\tilde{\mathcal{o}}(\sqrt{st})$の最適後悔を達成する。
本アルゴリズムの要点は適応的非定常検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
また、ウィンドウサイズが$V_T$の知識で最適に調整された場合でも、非適応的(例えば、静的ウィンドウサイズでスライディングウインドウ学習を再開または使用)はLQR問題に最適ではないと主張している。
アルゴリズム解析における主な技術的課題は、推定されるパラメータが非定常である場合に、通常の最小二乗推定器が小さなバイアスを持つことを示すことである。
我々の分析は、LQR問題は線形フィードバックと局所的な二次的コストのバンドイット問題である、という後悔の動機も強調している。
このモチーフはlqr問題自体よりも普遍的であり、結果がより広く応用されるべきであると考えています。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Optimal Dynamic Regret in LQR Control [23.91519151164528]
我々は、LQR制御という2次的損失の連続を伴う非確率的制御の問題を考察する。
我々は、$tildeO(textmaxn1/3 MathcalTV(M_1:n)2/3, 1)$の最適動的(政治的)後悔を実現するオンラインアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-18T18:00:21Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Geometric Exploration for Online Control [38.87811800375421]
本研究では,一般的な凸コスト下での線形力学系の制御について検討する。
目的は、障害フィードバックコントローラのクラスに対する後悔を最小限にすることである。
論文 参考訳(メタデータ) (2020-10-25T18:11:28Z) - Black-Box Control for Linear Dynamical Systems [40.352938608995174]
ブラックボックス相互作用の単一連鎖から未知の線形時間不変力学系を制御する問題を考える。
システムが制御可能であるという仮定の下で、サブ線形後悔を達成できる最初の効率的なアルゴリズムを与える。
論文 参考訳(メタデータ) (2020-07-13T19:43:19Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。