論文の概要: Minimizing Dynamic Regret and Adaptive Regret Simultaneously
- arxiv url: http://arxiv.org/abs/2002.02085v1
- Date: Thu, 6 Feb 2020 03:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 09:53:52.915470
- Title: Minimizing Dynamic Regret and Adaptive Regret Simultaneously
- Title(参考訳): 動的後悔と適応的後悔を同時に最小化する
- Authors: Lijun Zhang, Shiyin Lu, Tianbao Yang
- Abstract要約: 動的後悔と適応的後悔を同時に最小化できる新しいオンラインアルゴリズムを提案する。
我々の理論的保証は、あるアルゴリズムが任意の間隔で動的後悔を最小化できるという意味でさらに強い。
- 参考スコア(独自算出の注目度): 60.17824125301273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regret minimization is treated as the golden rule in the traditional study of
online learning. However, regret minimization algorithms tend to converge to
the static optimum, thus being suboptimal for changing environments. To address
this limitation, new performance measures, including dynamic regret and
adaptive regret have been proposed to guide the design of online algorithms.
The former one aims to minimize the global regret with respect to a sequence of
changing comparators, and the latter one attempts to minimize every local
regret with respect to a fixed comparator. Existing algorithms for dynamic
regret and adaptive regret are developed independently, and only target one
performance measure. In this paper, we bridge this gap by proposing novel
online algorithms that are able to minimize the dynamic regret and adaptive
regret simultaneously. In fact, our theoretical guarantee is even stronger in
the sense that one algorithm is able to minimize the dynamic regret over any
interval.
- Abstract(参考訳): 後悔の最小化は、オンライン学習の伝統的な研究において黄金律として扱われる。
しかし、後悔する最小化アルゴリズムは静的最適に収束する傾向にあり、環境の変化に最適ではない。
この制限に対処するため、オンラインアルゴリズムの設計を導くために、動的後悔や適応的後悔を含む新しいパフォーマンス対策が提案されている。
前者は、変化しているコンパレータの列に対する世界的後悔を最小化し、後者は固定されたコンパレータに関するすべてのローカルな後悔を最小化しようとする。
動的後悔と適応的後悔のための既存のアルゴリズムは独立に開発され、1つのパフォーマンス指標のみを対象としている。
本稿では,動的後悔と適応的後悔を同時に最小化できる新しいオンラインアルゴリズムを提案することによって,このギャップを埋める。
実際、我々の理論的な保証は、1つのアルゴリズムが任意の間隔で動的後悔を最小化できるという意味でさらに強力である。
関連論文リスト
- Universal Online Optimization in Dynamic Environments via Uniclass
Prediction [0.0]
動的環境におけるユニバーサルオンライン最適化のための新しい直感的なフレームワークを提案する。
私たちの戦略は、専門家のセットと付随するメタアルゴリズムの構築に依存していません。
これは、一般凸コスト関数に対しても、最先端の動的後悔保証を伴う普遍的アプローチを提案する最初の論文である。
論文 参考訳(メタデータ) (2023-02-13T03:00:45Z) - Distributed Online Non-convex Optimization with Composite Regret [31.53784277195043]
本稿では,分散オンライン一般損失に対する新たなネットワーク後悔を伴う,新たな複合後悔を提案する。
我々の知る限り、オンラインの非線形学習における最初の後悔である。
論文 参考訳(メタデータ) (2022-09-21T04:16:33Z) - Dynamic Regret of Adaptive Gradient Methods for Strongly Convex Problems [0.0]
我々は、動的後悔の概念を通じて、強い凸条件でADAGRAD(M-ADAGRAD)の変種を通り抜ける。
我々は、環境の非定常性を本質的に反映する最小化シーケンスのパス長という観点で、後悔すべき境界を示す。
論文 参考訳(メタデータ) (2022-09-04T12:40:57Z) - Efficient Adaptive Regret Minimization [35.121567896321885]
オンライン凸最適化では、プレイヤーは繰り返しゲーム全体に対して固定されたコンパレータに対する後悔を最小限にすることを目的としている。
既存の適応的後悔アルゴリズムは計算的なペナルティに悩まされる - 典型的には、ゲームの繰り返し回数で対数的に増加する乗法的因子の順序である。
本稿では,この計算ペナルティをゲーム繰り返し回数で2倍に対数的に減らし,最適な適応的再帰限界を最小限に抑える方法を示す。
論文 参考訳(メタデータ) (2022-07-01T19:43:11Z) - Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。
提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2022-05-02T08:48:22Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Optimistic and Adaptive Lagrangian Hedging [11.698607733213226]
オンライン学習では、アルゴリズムは各ラウンドの敵によって選択される可能性のある損失のある環境と対戦する。
私たちは、後悔マッチングとヘッジを含むオンラインアルゴリズムのクラスであるLagrangian hedgingに楽観と適応的なステップを導入します。
論文 参考訳(メタデータ) (2021-01-23T23:32:40Z) - Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。
パフォーマンス指標として動的後悔を選択します。
本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T14:10:57Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。