論文の概要: Improper Learning for Non-Stochastic Control
- arxiv url: http://arxiv.org/abs/2001.09254v3
- Date: Wed, 24 Jun 2020 23:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:08:50.314116
- Title: Improper Learning for Non-Stochastic Control
- Title(参考訳): 非確率制御のための不適切な学習
- Authors: Max Simchowitz, Karan Singh, Elad Hazan
- Abstract要約: 逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
- 参考スコア(独自算出の注目度): 78.65807250350755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of controlling a possibly unknown linear dynamical
system with adversarial perturbations, adversarially chosen convex loss
functions, and partially observed states, known as non-stochastic control. We
introduce a controller parametrization based on the denoised observations, and
prove that applying online gradient descent to this parametrization yields a
new controller which attains sublinear regret vs. a large class of closed-loop
policies. In the fully-adversarial setting, our controller attains an optimal
regret bound of $\sqrt{T}$-when the system is known, and, when combined with an
initial stage of least-squares estimation, $T^{2/3}$ when the system is
unknown; both yield the first sublinear regret for the partially observed
setting.
Our bounds are the first in the non-stochastic control setting that compete
with \emph{all} stabilizing linear dynamical controllers, not just state
feedback. Moreover, in the presence of semi-adversarial noise containing both
stochastic and adversarial components, our controller attains the optimal
regret bounds of $\mathrm{poly}(\log T)$ when the system is known, and
$\sqrt{T}$ when unknown. To our knowledge, this gives the first end-to-end
$\sqrt{T}$ regret for online Linear Quadratic Gaussian controller, and applies
in a more general setting with adversarial losses and semi-adversarial noise.
- Abstract(参考訳): 逆向摂動,逆選択凸損失関数,および非確率制御として知られる部分的に観測された状態を持つ未知の線形力学系を制御する問題を考える。
偏光観測に基づく制御器のパラメトリゼーションを導入し、このパラメトリゼーションにオンライン勾配勾配を適用すれば、多数の閉ループポリシーに対してサブ線形後悔を実現する新しい制御器が得られることを示す。
完全逆数設定では、制御器は、システムを知るときの最適後悔限界$\sqrt{T}$-を達成し、最小二乗推定の初期段階である$T^{2/3}$と組み合わせると、システムが未知となるとき、どちらも部分的に観察された設定に対して最初のサブ線形後悔をもたらす。
私たちのバウンダリは、状態フィードバックだけでなく線形動的コントローラの安定化と競合する非確率的制御設定における最初のものです。
さらに, 確率的成分と逆成分の両方を含む半逆雑音が存在する場合, 制御器は, 系が既知の場合, 最適後悔限度が$\mathrm{poly}(\log t)$, 未知時には$\sqrt{t}$となる。
私たちの知る限りでは、これはオンライン線形二次ガウス制御に最初のエンドツーエンドの$\sqrt{t}$ regretを与え、逆損失と半逆ノイズを伴うより一般的な設定に適用される。
関連論文リスト
- Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret [1.529943343419486]
本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
論文 参考訳(メタデータ) (2022-10-17T09:29:01Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Meta-Learning Guarantees for Online Receding Horizon Learning Control [0.0]
本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
論文 参考訳(メタデータ) (2020-10-21T21:57:04Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Making Non-Stochastic Control (Almost) as Easy as Stochastic [27.736345095024276]
より一般的な非確率的制御モデルにおいても、同じ後悔率が達成可能であることを示す。
学習者にとってダイナミクスが不明な場合に、最適な$widetildemathcalO(sqrtT)$ regretを得る。
論文 参考訳(メタデータ) (2020-06-10T16:00:14Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。