論文の概要: Strongly Adaptive OCO with Memory
- arxiv url: http://arxiv.org/abs/2102.01623v1
- Date: Tue, 2 Feb 2021 17:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 11:17:15.640018
- Title: Strongly Adaptive OCO with Memory
- Title(参考訳): 記憶に強い適応型OCO
- Authors: Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis
- Abstract要約: 本稿では,メモリを用いたオンライン学習のための適応型アルゴリズムを提案する。
このアルゴリズムは,線形時間変化システムの制御に強い適応性を持つリセットバウンドをもたらす。
- 参考スコア(独自算出の注目度): 49.319621885036035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in online control has popularized online learning with
memory, a variant of the standard online learning problem with loss functions
dependent on the prediction history. In this paper, we propose the first
strongly adaptive algorithm for this problem: on any interval
$\mathcal{I}\subset[1:T]$, the proposed algorithm achieves $\tilde
O\left(\sqrt{|\mathcal{I}|}\right)$ policy regret against the best fixed
comparator for that interval. Combined with online control techniques, our
algorithm results in a strongly adaptive regret bound for the control of linear
time-varying systems.
- Abstract(参考訳): オンライン制御の最近の進歩は、予測履歴に依存する損失関数を持つ標準オンライン学習問題の変種であるメモリによるオンライン学習を普及させました。
本稿では,この問題に対する最初の強適応アルゴリズムを提案する。任意の区間$\mathcal{i}\subset[1:t]$において,提案アルゴリズムは,その区間における最善の固定コンパレータに対して$\tilde o\left(\sqrt{|\mathcal{i}|}\right)$ポリシー後悔を達成する。
オンライン制御技術と組み合わせ、アルゴリズムは線形時間変位システムの制御に縛られる強い適応的な後悔をもたらします。
関連論文リスト
- Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Differentially Private Online-to-Batch for Smooth Losses [38.23708749658059]
我々は,オンライン凸最適化アルゴリズムが$O(sqrtT)$ regretを,最適収束率$tilde O(sqrtT + sqrtd/epsilon T)$で$epsilon$-differentially private convexアルゴリズムに変換することで,線形時間におけるスムーズな損失を解消する手法を開発した。
論文 参考訳(メタデータ) (2022-10-12T21:13:31Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Dynamic Regret for Strongly Adaptive Methods and Optimality of Online
KRR [13.165557713537389]
我々は、強い適応性(SA)アルゴリズムを、動的後悔を制御するための原則的な方法と見なせることを示した。
我々は,オンラインKernel Ridge Regression(KRR)の最小限の最適性を確立する,ある罰則による新たな下限を導出する。
論文 参考訳(メタデータ) (2021-11-22T21:52:47Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。