論文の概要: Online estimation and control with optimal pathlength regret
- arxiv url: http://arxiv.org/abs/2110.12544v1
- Date: Sun, 24 Oct 2021 22:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:25:19.227944
- Title: Online estimation and control with optimal pathlength regret
- Title(参考訳): 最適パス長後悔によるオンライン推定と制御
- Authors: Gautam Goel, Babak Hassibi
- Abstract要約: オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
- 参考スコア(独自算出の注目度): 52.28457815067461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A natural goal when designing online learning algorithms for non-stationary
environments is to bound the regret of the algorithm in terms of the temporal
variation of the input sequence. Intuitively, when the variation is small, it
should be easier for the algorithm to achieve low regret, since past
observations are predictive of future inputs. Such data-dependent "pathlength"
regret bounds have recently been obtained for a wide variety of online learning
problems, including OCO and bandits. We obtain the first pathlength regret
bounds for online control and estimation (e.g. Kalman filtering) in linear
dynamical systems. The key idea in our derivation is to reduce
pathlength-optimal filtering and control to certain variational problems in
robust estimation and control; these reductions may be of independent interest.
Numerical simulations confirm that our pathlength-optimal algorithms outperform
traditional $H_2$ and $H_{\infty}$ algorithms when the environment varies over
time.
- Abstract(参考訳): 非定常環境向けにオンライン学習アルゴリズムを設計する際の自然な目標は、入力シーケンスの時間的変動の観点からアルゴリズムの後悔を制限することである。
直観的には、変動が小さい場合、過去の観測は将来の入力を予測しているため、アルゴリズムは後悔の少ない結果を得るのが容易である。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データに依存した「病的」後悔境界が最近取得されている。
線形力学系におけるオンライン制御と推定(カルマンフィルタリングなど)のための最初のパス長後悔境界を得る。
我々の導出における鍵となる考え方は、ロバストな推定と制御における特定の変動問題に対する、長大な最適フィルタリングと制御を減らすことである。
数値シミュレーションにより、我々のパス長最適化アルゴリズムは時間とともに変化する場合、従来の$H_2$と$H_{\infty}$アルゴリズムより優れていることを確認した。
関連論文リスト
- Improving Adaptive Online Learning Using Refined Discretization [44.646191058243645]
リプシッツ損失を伴う制約のないオンライン線形最適化について検討する。
インスタンス最適性の追求に動機づけられ,我々は新しいアルゴリズムを提案する。
これらの結果の中心は、オンライン学習に対する継続的な時間的アプローチである。
論文 参考訳(メタデータ) (2023-09-27T21:54:52Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Strongly Adaptive OCO with Memory [49.319621885036035]
本稿では,メモリを用いたオンライン学習のための適応型アルゴリズムを提案する。
このアルゴリズムは,線形時間変化システムの制御に強い適応性を持つリセットバウンドをもたらす。
論文 参考訳(メタデータ) (2021-02-02T17:26:08Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。