論文の概要: Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult
- arxiv url: http://arxiv.org/abs/2310.17087v2
- Date: Tue, 12 Dec 2023 04:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 19:18:36.523787
- Title: Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult
- Title(参考訳): 良い規則性は、大きな学習率の暗黙のバイアスを生み出す:安定性、バランス、カタパルト
- Authors: Yuqing Wang, Zhenghao Xu, Tuo Zhao, Molei Tao
- Abstract要約: 非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。
この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
- 参考スコア(独自算出の注目度): 49.8719617899285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large learning rates, when applied to gradient descent for nonconvex
optimization, yield various implicit biases including the edge of stability
(Cohen et al., 2021), balancing (Wang et al., 2022), and catapult (Lewkowycz et
al., 2020). These phenomena cannot be well explained by classical optimization
theory. Though significant theoretical progress has been made in understanding
these implicit biases, it remains unclear for which objective functions would
they be more likely. This paper provides an initial step in answering this
question and also shows that these implicit biases are in fact various tips of
the same iceberg. To establish these results, we develop a global convergence
theory under large learning rates, for a family of nonconvex functions without
globally Lipschitz continuous gradient, which was typically assumed in existing
convergence analysis. Specifically, these phenomena are more likely to occur
when the optimization objective function has good regularity. This regularity,
together with gradient descent using a large learning rate that favors flatter
regions, results in these nontrivial dynamical behaviors. Another corollary is
the first non-asymptotic convergence rate bound for large-learning-rate
gradient descent optimization of nonconvex functions. Although our theory only
applies to specific functions so far, the possibility of extrapolating it to
neural networks is also experimentally validated, for which different choices
of loss, activation functions, and other techniques such as batch normalization
can all affect regularity significantly and lead to very different training
dynamics.
- Abstract(参考訳): 非凸最適化の勾配降下に適用された大きな学習率は、安定性の辺(cohen et al., 2021)、バランス(wang et al., 2022)、カタパルト(lewkowycz et al., 2020)を含む様々な暗黙のバイアスをもたらす。
これらの現象は古典最適化理論では十分に説明できない。
これらの暗黙の偏見を理解するための理論的な大きな進歩があったが、どの目的関数の方がより可能性が高いかは定かではない。
本稿は、この質問に答える最初のステップを提供し、これらの暗黙の偏見が実際には同じ氷山における様々なヒントであることを示す。
これらの結果を確立するために,既存の収束解析で一般的に想定されるグローバルリプシッツ連続勾配を伴わない非凸関数群に対して,大きな学習率の下で大域収束理論を考案する。
具体的には、最適化対象関数が良好な正則性を持つ場合、これらの現象はより起こりやすい。
この規則性と、平坦な領域を好む大きな学習率を用いた勾配降下は、これらの非自明な動的挙動をもたらす。
また、非凸関数の大規模学習速度勾配降下最適化のために束縛された最初の非漸近収束率である。
我々の理論は特定の機能にのみ適用されているが、ニューラルネットワークへの外挿の可能性も実験的に検証されており、損失の選択、アクティベーション関数、バッチ正規化などのテクニックがすべて正則性に大きく影響し、全く異なるトレーニングダイナミクスをもたらす。
関連論文リスト
- Understanding Stochastic Natural Gradient Variational Inference [12.800664845601197]
グローバル収束率$mathcalO(frac1)$は暗黙的にNGVIの非漸近収束率を示す。
速度は降下(ブラックボックス変分推論)よりも悪くなく、一定の依存性がある。
論文 参考訳(メタデータ) (2024-06-04T00:45:37Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。
平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。
任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2020-06-16T20:53:04Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。