論文の概要: No-Regret Prediction in Marginally Stable Systems
- arxiv url: http://arxiv.org/abs/2002.02064v3
- Date: Tue, 23 Jun 2020 19:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:37:38.292817
- Title: No-Regret Prediction in Marginally Stable Systems
- Title(参考訳): 安定系における非回帰予測
- Authors: Udaya Ghai, Holden Lee, Karan Singh, Cyril Zhang, Yi Zhang
- Abstract要約: 本稿では,線形力学系におけるオンライン予測の問題点について考察する。
本手法を自己回帰フィルタの学習に適用することにより,部分的に観察された条件下での対数的後悔も達成できる。
- 参考スコア(独自算出の注目度): 37.178095559618654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of online prediction in a marginally stable linear
dynamical system subject to bounded adversarial or (non-isotropic) stochastic
perturbations. This poses two challenges. Firstly, the system is in general
unidentifiable, so recent and classical results on parameter recovery do not
apply. Secondly, because we allow the system to be marginally stable, the state
can grow polynomially with time; this causes standard regret bounds in online
convex optimization to be vacuous. In spite of these challenges, we show that
the online least-squares algorithm achieves sublinear regret (improvable to
polylogarithmic in the stochastic setting), with polynomial dependence on the
system's parameters. This requires a refined regret analysis, including a
structural lemma showing the current state of the system to be a small linear
combination of past states, even if the state grows polynomially. By applying
our techniques to learning an autoregressive filter, we also achieve
logarithmic regret in the partially observed setting under Gaussian noise, with
polynomial dependence on the memory of the associated Kalman filter.
- Abstract(参考訳): 境界付き逆向あるいは(非等方性)確率的摂動を伴う限界安定線形力学系におけるオンライン予測の問題を考える。
これには2つの課題がある。
第一に、このシステムは一般に不特定であるため、パラメータ回復に関する最近の古典的な結果は適用されない。
第二に、システムを極端に安定させるため、状態は時間とともに多項式的に成長し、オンライン凸最適化における標準的な後悔の限界は空白となる。
これらの課題にもかかわらず、オンラインの最小二乗アルゴリズムは、システムのパラメータに多項式依存を伴い、サブ線形後悔(確率的条件で多対数的に改善できる)を達成することを示す。
これは、たとえ状態が多項式的に成長しても、システムの現在の状態が過去の状態の小さな線形結合であることを示す構造的補題を含む、洗練された後悔の分析を必要とする。
この手法を自己回帰フィルタの学習に適用することにより、ガウス雑音下で部分的に観察された条件下での対数的後悔も達成し、関連するカルマンフィルタのメモリに多項式依存する。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Stability Bounds for Learning-Based Adaptive Control of Discrete-Time
Multi-Dimensional Stochastic Linear Systems with Input Constraints [3.8004168340068336]
本研究では,有界制御入力制約と非有界障害を有する離散時間多次元システムの適応安定化問題について考察する。
本稿では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価制御手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T16:38:13Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Sparse Identification of Nonlinear Dynamical Systems via Reweighted
$\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。
本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文 参考訳(メタデータ) (2020-05-27T08:30:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Online Learning of the Kalman Filter with Logarithmic Regret [2.0305676256390934]
高い確率で$mathrmpolylog(N)$の順序を後悔することは可能であり、$N$は収集された観測数である。
これは、将来の観測と過去の観測との概ね線形関係を利用するオンラインの最小二乗アルゴリズムを用いて達成される。
論文 参考訳(メタデータ) (2020-02-12T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。