論文の概要: No-Regret Prediction in Marginally Stable Systems
- arxiv url: http://arxiv.org/abs/2002.02064v3
- Date: Tue, 23 Jun 2020 19:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:37:38.292817
- Title: No-Regret Prediction in Marginally Stable Systems
- Title(参考訳): 安定系における非回帰予測
- Authors: Udaya Ghai, Holden Lee, Karan Singh, Cyril Zhang, Yi Zhang
- Abstract要約: 本稿では,線形力学系におけるオンライン予測の問題点について考察する。
本手法を自己回帰フィルタの学習に適用することにより,部分的に観察された条件下での対数的後悔も達成できる。
- 参考スコア(独自算出の注目度): 37.178095559618654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of online prediction in a marginally stable linear
dynamical system subject to bounded adversarial or (non-isotropic) stochastic
perturbations. This poses two challenges. Firstly, the system is in general
unidentifiable, so recent and classical results on parameter recovery do not
apply. Secondly, because we allow the system to be marginally stable, the state
can grow polynomially with time; this causes standard regret bounds in online
convex optimization to be vacuous. In spite of these challenges, we show that
the online least-squares algorithm achieves sublinear regret (improvable to
polylogarithmic in the stochastic setting), with polynomial dependence on the
system's parameters. This requires a refined regret analysis, including a
structural lemma showing the current state of the system to be a small linear
combination of past states, even if the state grows polynomially. By applying
our techniques to learning an autoregressive filter, we also achieve
logarithmic regret in the partially observed setting under Gaussian noise, with
polynomial dependence on the memory of the associated Kalman filter.
- Abstract(参考訳): 境界付き逆向あるいは(非等方性)確率的摂動を伴う限界安定線形力学系におけるオンライン予測の問題を考える。
これには2つの課題がある。
第一に、このシステムは一般に不特定であるため、パラメータ回復に関する最近の古典的な結果は適用されない。
第二に、システムを極端に安定させるため、状態は時間とともに多項式的に成長し、オンライン凸最適化における標準的な後悔の限界は空白となる。
これらの課題にもかかわらず、オンラインの最小二乗アルゴリズムは、システムのパラメータに多項式依存を伴い、サブ線形後悔(確率的条件で多対数的に改善できる)を達成することを示す。
これは、たとえ状態が多項式的に成長しても、システムの現在の状態が過去の状態の小さな線形結合であることを示す構造的補題を含む、洗練された後悔の分析を必要とする。
この手法を自己回帰フィルタの学習に適用することにより、ガウス雑音下で部分的に観察された条件下での対数的後悔も達成し、関連するカルマンフィルタのメモリに多項式依存する。
関連論文リスト
- Dimension-free Regret for Learning Asymmetric Linear Dynamical Systems [19.415741153449265]
本稿では,行列の存在にもかかわらず,トレードオフのない非次元的後悔を克服する新しい手法を提案する。
本手法では,スペクトルフィルタリングと線形予測器を併用し,複素平面にチェビシェフを用いて新しいスペクトルフィルタリング基盤を構築する。
遷移行列が1/mathrmpoly log$で有界な複素成分を持つ固有値を持つ限り、我々の手法は後見の最良の線形予測子と比較して、後悔の$tildeO(9/10)$を達成できる。
論文 参考訳(メタデータ) (2025-02-10T15:10:06Z) - The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系に対するオンライン強化学習のサンプル複雑性について検討した。
我々のアルゴリズムは、その単純さ、事前知識を組み込む能力、そして良心的な過渡的行動のために、実際に有用である可能性が高い。
論文 参考訳(メタデータ) (2025-01-27T10:01:28Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Stability Bounds for Learning-Based Adaptive Control of Discrete-Time
Multi-Dimensional Stochastic Linear Systems with Input Constraints [3.8004168340068336]
本研究では,有界制御入力制約と非有界障害を有する離散時間多次元システムの適応安定化問題について考察する。
本稿では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価制御手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T16:38:13Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Sparse Identification of Nonlinear Dynamical Systems via Reweighted
$\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。
本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文 参考訳(メタデータ) (2020-05-27T08:30:15Z) - Online Learning of the Kalman Filter with Logarithmic Regret [2.0305676256390934]
高い確率で$mathrmpolylog(N)$の順序を後悔することは可能であり、$N$は収集された観測数である。
これは、将来の観測と過去の観測との概ね線形関係を利用するオンラインの最小二乗アルゴリズムを用いて達成される。
論文 参考訳(メタデータ) (2020-02-12T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。