論文の概要: Online Learning with Optimism and Delay
- arxiv url: http://arxiv.org/abs/2106.06885v2
- Date: Tue, 15 Jun 2021 02:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 15:59:35.100724
- Title: Online Learning with Optimism and Delay
- Title(参考訳): 最適化と遅延によるオンライン学習
- Authors: Genevieve Flaspohler, Francesco Orabona, Judah Cohen, Soukayna
Mouatadid, Miruna Oprescu, Paulo Orenstein and Lester Mackey
- Abstract要約: パラメータチューニングを必要としない楽観的なオンライン学習アルゴリズムを開発した。
我々のアルゴリズム -- DORM、DORM+、AdaHedgeD -- は、遅延オンライン学習から楽観的なオンライン学習への新たな削減から生まれます。
我々は,4つの季節下気候予測課題について,我々のアルゴリズムをベンチマークし,最先端の予測モデルと比較して低い後悔を示すことで結論付けた。
- 参考スコア(独自算出の注目度): 31.477420604706044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the demands of real-time climate and weather forecasting, we
develop optimistic online learning algorithms that require no parameter tuning
and have optimal regret guarantees under delayed feedback. Our algorithms --
DORM, DORM+, and AdaHedgeD -- arise from a novel reduction of delayed online
learning to optimistic online learning that reveals how optimistic hints can
mitigate the regret penalty caused by delay. We pair this delay-as-optimism
perspective with a new analysis of optimistic learning that exposes its
robustness to hinting errors and a new meta-algorithm for learning effective
hinting strategies in the presence of delay. We conclude by benchmarking our
algorithms on four subseasonal climate forecasting tasks, demonstrating low
regret relative to state-of-the-art forecasting models.
- Abstract(参考訳): リアルタイムの気候や天気予報の需要に触発されて,パラメータチューニングを必要としない楽観的なオンライン学習アルゴリズムを開発し,遅延フィードバックの下で最適な後悔の保証を行う。
我々のアルゴリズム(DORM、DORM+、AdaHedgeD)は、遅延したオンライン学習から楽観的なオンライン学習への新たな還元から始まり、遅延による後悔の罰をいかに楽観的に緩和するかを明らかにします。
この遅延・アズ・オプティミズムの観点と,新しい楽観的学習の分析とを組み合わせることで,その頑健さをヒントの誤りにさらし,遅延の存在下で効果的なヒント戦略を学習する新しいメタアルゴリズムを提案する。
我々は,4つの季節下気候予測課題について,我々のアルゴリズムをベンチマークすることで,最先端の予測モデルと比較して低い後悔を示す。
関連論文リスト
- On discretisation drift and smoothness regularisation in neural network
training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。
まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。
NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。
そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文 参考訳(メタデータ) (2023-10-21T15:21:36Z) - End-to-End Learning for Stochastic Optimization: A Bayesian Perspective [9.356870107137093]
最適化におけるエンド・ツー・エンド・ラーニングの原則的アプローチを開発する。
本稿では,標準エンドツーエンド学習アルゴリズムがベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。
次に、意思決定マップの学習のための新しいエンドツーエンド学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T05:55:45Z) - Improved Online Conformal Prediction via Strongly Adaptive Online
Learning [86.4346936885507]
我々は、強い適応的後悔を最小限に抑える新しいオンライン共形予測手法を開発した。
提案手法は,すべての区間において,ほぼ最適に適応的な後悔を同時に達成できることを実証する。
実験により,本手法は実世界のタスクにおける既存の手法よりも,より優れたカバレッジと予測セットが得られることがわかった。
論文 参考訳(メタデータ) (2023-02-15T18:59:30Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Minimizing Dynamic Regret and Adaptive Regret Simultaneously [60.17824125301273]
動的後悔と適応的後悔を同時に最小化できる新しいオンラインアルゴリズムを提案する。
我々の理論的保証は、あるアルゴリズムが任意の間隔で動的後悔を最小化できるという意味でさらに強い。
論文 参考訳(メタデータ) (2020-02-06T03:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。