論文の概要: Two-Tailed Averaging: Anytime Adaptive Once-in-a-while Optimal Iterate
Averaging for Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2209.12581v1
- Date: Mon, 26 Sep 2022 10:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:13:16.004112
- Title: Two-Tailed Averaging: Anytime Adaptive Once-in-a-while Optimal Iterate
Averaging for Stochastic Optimization
- Title(参考訳): Two-Tailed Averaging: 確率最適化のための任意の適応型一応最適イテレーション
- Authors: G\'abor Melis
- Abstract要約: 平均平均化は、Polyak平均化の非漸近的振る舞いを改善し、その計算から多くの主要な最適化の繰り返しを除外する。
本アルゴリズムは,最適尾長で有界な2つの走行平均値に基づく。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tail averaging improves on Polyak averaging's non-asymptotic behaviour by
excluding a number of leading iterates of stochastic optimization from its
calculations. In practice, with a finite number of optimization steps and a
learning rate that cannot be annealed to zero, tail averaging can get much
closer to a local minimum point of the training loss than either the individual
iterates or the Polyak average. However, the number of leading iterates to
ignore is an important hyperparameter, and starting averaging too early or too
late leads to inefficient use of resources or suboptimal solutions. Setting
this hyperparameter to improve generalization is even more difficult,
especially in the presence of other hyperparameters and overfitting.
Furthermore, before averaging starts, the loss is only weakly informative of
the final performance, which makes early stopping unreliable. To alleviate
these problems, we propose an anytime variant of tail averaging, that has no
hyperparameters and approximates the optimal tail at all optimization steps.
Our algorithm is based on two running averages with adaptive lengths bounded in
terms of the optimal tail length, one of which achieves approximate optimality
with some regularity. Requiring only the additional storage for two sets of
weights and periodic evaluation of the loss, the proposed two-tailed averaging
algorithm is a practical and widely applicable method for improving stochastic
optimization.
- Abstract(参考訳): 平均化はPolyak平均化の非漸近的振る舞いを改善し、その計算から確率最適化の多くの主要な反復を除外する。
実際には、有限数の最適化ステップとゼロに焼鈍できない学習率により、テール平均化は個々のイテレーションやPolyak平均よりもトレーニング損失の局所的な最小点にかなり近づくことができる。
しかし、無視すべきリードイテレートの数は重要なハイパーパラメータであり、平均化が早すぎるか遅すぎるかはリソースや最適でないソリューションの非効率な利用につながる。
一般化を改善するためにこのハイパーパラメータを設定することは、特に他のハイパーパラメータやオーバーフィッティングが存在する場合、さらに難しい。
さらに、平均化が始まる前に、損失は最終結果に弱い情報しか与えられず、早期停止は信頼できない。
これらの問題を緩和するために,超パラメータを持たず,すべての最適化ステップで最適なテールを近似する,時限型末尾平均化を提案する。
本アルゴリズムは,最適尾長で有界な2つのランニング平均に基づいており,そのうちの1つは一定の正則性で近似最適性を達成する。
2組の重みに対する追加記憶と損失の周期的評価のみを必要とするため、提案手法は確率最適化を改善するための実用的で広く適用可能な方法である。
関連論文リスト
- Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - A simple uniformly optimal method without line search for convex optimization [9.280355951055865]
パラメータが優先されていない凸最適化問題の解法として最適収束率を得るには,線探索が過剰であることを示す。
滑らかな凸最適化のために最適な$mathcalO (1/k2)$収束率を達成できるAC-FGMと呼ばれる新しい勾配降下型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T05:26:03Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic
Optimization Problems [12.010310883787911]
我々は、弱凸(おそらく非滑らかな)最適化問題の重要なクラスを解くための、適応的な段階的な新しい手法の族を解析する。
実験結果から,提案アルゴリズムが0次勾配降下と設計変動を経験的に上回ることを示す。
論文 参考訳(メタデータ) (2020-05-19T07:44:52Z) - Private Stochastic Convex Optimization: Optimal Rates in Linear Time [74.47681868973598]
本研究では,凸損失関数の分布から得られた個体群損失を最小化する問題について検討する。
Bassilyらによる最近の研究は、$n$のサンプルを与えられた過剰な人口損失の最適境界を確立している。
本稿では,余剰損失に対する最適境界を達成するとともに,$O(minn, n2/d)$グラデーション計算を用いて凸最適化アルゴリズムを導出する2つの新しい手法について述べる。
論文 参考訳(メタデータ) (2020-05-10T19:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。