論文の概要: Isotuning With Applications To Scale-Free Online Learning
- arxiv url: http://arxiv.org/abs/2112.14586v3
- Date: Mon, 21 Oct 2024 16:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:07.937779
- Title: Isotuning With Applications To Scale-Free Online Learning
- Title(参考訳): オンライン学習の大規模化を目指すIsotuning
- Authors: Laurent Orseau, Marcus Hutter,
- Abstract要約: 私たちは、高速で適応性があり、いつでも、スケールフリーなオンライン学習アルゴリズムを設計するために、文学のいくつかのツールを拡張し、組み合わせています。
最初の、そして主要なツールであるisotuningは、後悔のトレードオフをバランスさせる適応的な学習率を設計するというアイデアの一般化です。
第2のツールはオンラインの修正であり、多くのアルゴリズムで中心となる境界を得ることができ、後悔する境界が空白にならないようにする。
最後のツールはnullアップデートであり、アルゴリズムが過度に大規模な更新を行うのを防ぐ。
- 参考スコア(独自算出の注目度): 19.52475623314373
- License:
- Abstract: We extend and combine several tools of the literature to design fast, adaptive, anytime and scale-free online learning algorithms. Scale-free regret bounds must scale linearly with the maximum loss, both toward large losses and toward very small losses. Adaptive regret bounds demonstrate that an algorithm can take advantage of easy data and potentially have constant regret. We seek to develop fast algorithms that depend on as few parameters as possible, in particular they should be anytime and thus not depend on the time horizon. Our first and main tool, isotuning, is a generalization of the idea of designing adaptive learning rates that balance the trade-off of the regret. We provide a simple and versatile theorem that can be applied to a wide range of settings, and competes with the best balancing in hindsight within a factor 2. The second tool is an online correction, which allows us to obtain centered bounds for many algorithms, to prevent the regret bounds from being vacuous when the domain is overly large or only partially constrained. The last tool, null updates, prevents the algorithm from performing overly large updates, which could result in unbounded regret, or even invalid updates. We develop a general theory to combine all these tools and apply it to several standard algorithms. In particular, we (almost entirely) restore the adaptivity to small losses of FTRL for unbounded domains, design and prove scale-free adaptive guarantees for a variant of Mirror Descent (at least when the Bregman divergence is convex in its second argument), extend Adapt-ML-Prod to scale-free guarantees, and provide several additional contributions about Prod, AdaHedge, BOA and Soft-Bayes.
- Abstract(参考訳): 私たちは、高速で適応性があり、いつでも、スケールフリーなオンライン学習アルゴリズムを設計するために、文学のいくつかのツールを拡張し、組み合わせています。
スケールフリーの後悔境界は、大きな損失と非常に小さな損失の両方に対して、最大損失とともに直線的にスケールしなければならない。
適応的後悔境界(Adaptive regret bounds)は、アルゴリズムが簡単なデータを利用することができ、繰り返し後悔する可能性があることを示す。
我々は、できるだけ少ないパラメータに依存する高速アルゴリズムの開発を試みており、特に、それらはいつでもあるべきであり、したがって時間的地平線に依存しない。
最初の、そして主要なツールであるisotuningは、後悔のトレードオフをバランスさせる適応的な学習率を設計するというアイデアの一般化です。
我々は、幅広い設定に適用できる単純で万能な定理を提供し、第2因子の近視における最良のバランスと競合する。
第2のツールはオンラインの修正であり、多くのアルゴリズムの集中境界を得ることができ、ドメインが過度に大きく、あるいは部分的に制限されている場合に、後悔の境界が空白にならないようにする。
最後のツールであるnullアップデートは、アルゴリズムが過度に大規模な更新を行うのを防ぐ。
我々はこれらのツールを全て組み合わせ、それをいくつかの標準アルゴリズムに適用する一般理論を開発した。
特に、(ほぼ完全に)非有界領域に対するFTRLの小さな損失に対する適応性を復元し、ミラー・ディクセントの変種に対するスケールフリー適応保証(少なくとも第2の議論においてブレグマン偏差が凸である場合)を設計し、証明し、Adapt-ML-Prodをスケールフリー保証に拡張し、Prod、AdaHedge、BOA、Soft-Bayesに関するいくつかの貢献を提供する。
関連論文リスト
- Computing Optimal Regularizers for Online Linear Optimization [38.72709491927979]
FTRL(Follow-the-Regularized-Leader)アルゴリズムはオンライン線形最適化(OLO)のための一般的な学習アルゴリズムである。
本稿では,最良学習アルゴリズムの一定要素内における後悔を実現するFTRLのインスタンス化が存在することを示す。
論文 参考訳(メタデータ) (2024-10-22T18:10:50Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Riemannian Projection-free Online Learning [5.918057694291832]
プロジェクション操作は、オンライン勾配降下(OGD)のような最適化アルゴリズムにおける重要な要素である。
これは高次元の設定における計算上の制限や、不条件の制約セットを扱う際に悩まされる。
本稿では,曲面空間上でのオンライン測地線凸最適化において,線形後悔の保証を得る手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:22:09Z) - Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL
with General Regularizers and Multiple Optimal Arms [41.06668954462585]
本研究では,適応型マルチアームバンディットアルゴリズムを設計する際の課題について検討する。
FTRLには多種多様な正規化要因と新たな学習率スケジュールが不要であることを示す。
論文 参考訳(メタデータ) (2023-02-27T06:09:10Z) - Improved Online Conformal Prediction via Strongly Adaptive Online
Learning [86.4346936885507]
我々は、強い適応的後悔を最小限に抑える新しいオンライン共形予測手法を開発した。
提案手法は,すべての区間において,ほぼ最適に適応的な後悔を同時に達成できることを実証する。
実験により,本手法は実世界のタスクにおける既存の手法よりも,より優れたカバレッジと予測セットが得られることがわかった。
論文 参考訳(メタデータ) (2023-02-15T18:59:30Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Optimistic and Adaptive Lagrangian Hedging [11.698607733213226]
オンライン学習では、アルゴリズムは各ラウンドの敵によって選択される可能性のある損失のある環境と対戦する。
私たちは、後悔マッチングとヘッジを含むオンラインアルゴリズムのクラスであるLagrangian hedgingに楽観と適応的なステップを導入します。
論文 参考訳(メタデータ) (2021-01-23T23:32:40Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。