論文の概要: Two-Tailed Averaging: Anytime, Adaptive, Once-in-a-While Optimal Weight
Averaging for Better Generalization
- arxiv url: http://arxiv.org/abs/2209.12581v3
- Date: Mon, 17 Apr 2023 14:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:04:39.687351
- Title: Two-Tailed Averaging: Anytime, Adaptive, Once-in-a-While Optimal Weight
Averaging for Better Generalization
- Title(参考訳): 2台組平均値: 任意の、適応的で、ワンインワンの最適ウェイト平均値
- Authors: G\'abor Melis
- Abstract要約: Tail AveragingはPolyak Averagingの非漸近的振る舞いを改善する。
純粋最適化ではなく一般化を改善することを目的としたTail Averagingの常用変種を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tail Averaging improves on Polyak averaging's non-asymptotic behaviour by
excluding a number of leading iterates of stochastic optimization from its
calculations. In practice, with a finite number of optimization steps and a
learning rate that cannot be annealed to zero, Tail Averaging can get much
closer to a local minimum point of the training loss than either the individual
iterates or the Polyak average. However, the number of leading iterates to
ignore is an important hyperparameter, and starting averaging too early or too
late leads to inefficient use of resources or suboptimal solutions. Our work
focusses on improving generalization, which makes setting this hyperparameter
even more difficult, especially in the presence of other hyperparameters and
overfitting. Furthermore, before averaging starts, the loss is only weakly
informative of the final performance, which makes early stopping unreliable. To
alleviate these problems, we propose an anytime variant of Tail Averaging
intended for improving generalization not pure optimization, that has no
hyperparameters and approximates the optimal tail at all optimization steps.
Our algorithm is based on two running averages with adaptive lengths bounded in
terms of the optimal tail length, one of which achieves approximate optimality
with some regularity. Requiring only the additional storage for two sets of
weights and periodic evaluation of the loss, the proposed Two-Tailed Averaging
algorithm is a practical and widely applicable method for improving
generalization.
- Abstract(参考訳): テール平均化は、確率的最適化の多くの主要なイテレートをその計算から除外することで、polyak平均化の非漸近的挙動を改善する。
実際には、有限数の最適化ステップとゼロに焼鈍できない学習率により、Tail Averagingは個々のイテレーションやPolyak平均よりも、トレーニング損失の局所的な最小点にずっと近づくことができる。
しかし、無視すべきリードイテレートの数は重要なハイパーパラメータであり、平均化が早すぎるか遅すぎるかはリソースや最適でないソリューションの非効率な利用につながる。
我々の研究は一般化の改善に焦点を当てており、特に他のハイパーパラメータやオーバーフィッティングの存在下で、このハイパーパラメータの設定をさらに困難にしている。
さらに、平均化が始まる前に、損失は最終結果に弱い情報しか与えられず、早期停止は信頼できない。
これらの問題を緩和するために,超パラメータを持たず,すべての最適化ステップで最適なテールを近似する,純粋最適化ではなく一般化を改善することを目的とした末尾平均化のanytime変種を提案する。
本アルゴリズムは,最適尾長で有界な2つのランニング平均に基づいており,そのうちの1つは一定の正則性で近似最適性を達成する。
2組の重みに対する追加記憶と損失の周期的評価を必要とするため、提案アルゴリズムは、一般化を改善するための実用的で広く適用可能な方法である。
関連論文リスト
- Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - A simple uniformly optimal method without line search for convex optimization [9.280355951055865]
パラメータが優先されていない凸最適化問題の解法として最適収束率を得るには,線探索が過剰であることを示す。
滑らかな凸最適化のために最適な$mathcalO (1/k2)$収束率を達成できるAC-FGMと呼ばれる新しい勾配降下型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T05:26:03Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - On Stochastic Moving-Average Estimators for Non-Convex Optimization [105.22760323075008]
本稿では,移動平均(SEMA)問題に基づく広く利用されている推定器のパワーを実証する。
これらすべてのアートな結果に対して、これらのアートな問題に対する結果も提示します。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic
Optimization Problems [12.010310883787911]
我々は、弱凸(おそらく非滑らかな)最適化問題の重要なクラスを解くための、適応的な段階的な新しい手法の族を解析する。
実験結果から,提案アルゴリズムが0次勾配降下と設計変動を経験的に上回ることを示す。
論文 参考訳(メタデータ) (2020-05-19T07:44:52Z) - Private Stochastic Convex Optimization: Optimal Rates in Linear Time [74.47681868973598]
本研究では,凸損失関数の分布から得られた個体群損失を最小化する問題について検討する。
Bassilyらによる最近の研究は、$n$のサンプルを与えられた過剰な人口損失の最適境界を確立している。
本稿では,余剰損失に対する最適境界を達成するとともに,$O(minn, n2/d)$グラデーション計算を用いて凸最適化アルゴリズムを導出する2つの新しい手法について述べる。
論文 参考訳(メタデータ) (2020-05-10T19:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。