論文の概要: Super-Convergence with an Unstable Learning Rate
- arxiv url: http://arxiv.org/abs/2102.10734v1
- Date: Mon, 22 Feb 2021 02:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:51:14.010464
- Title: Super-Convergence with an Unstable Learning Rate
- Title(参考訳): 不安定な学習率を持つ超収束
- Authors: Samet Oymak
- Abstract要約: 従来の知恵は、学習率が安定的な体制にあるべきであり、勾配に基づくアルゴリズムが爆発しないようにしている。
ここでは、不安定な学習率スキームが超高速収束をもたらす単純なシナリオを紹介する。
我々は周期的に大きな不安定なステップといくつかの小さな安定ステップを取り、不安定さを補うサイクル学習率を用いている。
- 参考スコア(独自算出の注目度): 20.13887962999915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional wisdom dictates that learning rate should be in the stable
regime so that gradient-based algorithms don't blow up. This note introduces a
simple scenario where an unstable learning rate scheme leads to a super fast
convergence, with the convergence rate depending only logarithmically on the
condition number of the problem. Our scheme uses a Cyclical Learning Rate where
we periodically take one large unstable step and several small stable steps to
compensate for the instability. These findings also help explain the empirical
observations of [Smith and Topin, 2019] where they claim CLR with a large
maximum learning rate leads to "super-convergence". We prove that our scheme
excels in the problems where Hessian exhibits a bimodal spectrum and the
eigenvalues can be grouped into two clusters (small and large). The unstable
step is the key to enabling fast convergence over the small eigen-spectrum.
- Abstract(参考訳): 従来の知恵は、学習率が安定的な体制にあるべきであり、勾配に基づくアルゴリズムが爆発しないようにしている。
本稿では,不安定な学習率スキームが超高速収束に導く単純なシナリオを紹介し,その収束率は問題の条件数に対数的にのみ依存する。
我々は周期的に大きな不安定なステップといくつかの小さな安定ステップを取り、不安定さを補うサイクル学習率を用いている。
これらの調査結果は、最大学習率のCLRが「超収束」につながると主張する[Smith and Topin, 2019]の実証的観察を説明するのにも役立ちます。
このスキームは、ヘッセンがバイモーダルスペクトルを示し、固有値を2つのクラスタ(小型および大規模)にグループ化できる問題において優れていることを証明します。
不安定なステップは、小さな固有スペクトル上の高速収束を可能にする鍵です。
関連論文リスト
- Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - A Stability Principle for Learning under Non-Stationarity [1.1510009152620668]
非定常環境における統計的学習のための多目的フレームワークを開発する。
解析の中心には、関数間の類似性の尺度と、非定常データ列を準定常断片に分割するセグメンテーション技法の2つの新しい要素がある。
論文 参考訳(メタデータ) (2023-10-27T17:53:53Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Quantifying non-stabilizerness via information scrambling [0.6993026261767287]
量子資源を定量化する方法は、マジックモノトンと安定化エントロピーと呼ばれる関数のクラスを使用することである。
量子ビット系と量子ビット系の両方に対して,これらの試料相関器と異なる非安定化器性対策との関係を数値的に示す。
我々は、局所ハミルトンの時間進化のためのマジックの単調な振る舞いを測定するためのプロトコルを前進し、シミュレートした。
論文 参考訳(メタデータ) (2022-04-24T10:12:47Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Stability and Generalization of Stochastic Gradient Methods for Minimax
Problems [71.60601421935844]
多くの機械学習問題は、GAN(Generative Adversarial Networks)のようなミニマックス問題として定式化できる。
ミニマックス問題に対するトレーニング勾配法から例を包括的に一般化解析する。
論文 参考訳(メタデータ) (2021-05-08T22:38:00Z) - Stability and Convergence of Stochastic Gradient Clipping: Beyond
Lipschitz Continuity and Smoothness [23.22461721824713]
グラデーションクリッピングは、爆発グラデーション問題が発生しやすい問題のトレーニングプロセスを安定化させる技術です。
本稿では,非滑らか凸関数に対する勾配クリッピング(サブ)勾配法(SGD)の定性的および定量的な結果を確立する。
また,特殊ケースとしてSGDをクリップした運動量を用いたクリップ方式の収束性についても検討した。
論文 参考訳(メタデータ) (2021-02-12T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。