論文の概要: Adaptive Gradient Methods at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2207.14484v2
- Date: Mon, 15 Apr 2024 22:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 03:10:06.508480
- Title: Adaptive Gradient Methods at the Edge of Stability
- Title(参考訳): 安定端における適応的勾配法
- Authors: Jeremy M. Cohen, Behrooz Ghorbani, Shankar Krishnan, Naman Agarwal, Sourabh Medapati, Michal Badura, Daniel Suo, David Cardoze, Zachary Nado, George E. Dahl, Justin Gilmer,
- Abstract要約: 我々は、ディープラーニングにおけるAdamのような適応的勾配法のトレーニングダイナミクスに光を当てた。
この知見は,ディープラーニングにおける適応的勾配法に関するコミュニティの今後の理解の基盤となる。
- 参考スコア(独自算出の注目度): 23.246757545508444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Very little is known about the training dynamics of adaptive gradient methods like Adam in deep learning. In this paper, we shed light on the behavior of these algorithms in the full-batch and sufficiently large batch settings. Specifically, we empirically demonstrate that during full-batch training, the maximum eigenvalue of the preconditioned Hessian typically equilibrates at a certain numerical value -- the stability threshold of a gradient descent algorithm. For Adam with step size $\eta$ and $\beta_1 = 0.9$, this stability threshold is $38/\eta$. Similar effects occur during minibatch training, especially as the batch size grows. Yet, even though adaptive methods train at the ``Adaptive Edge of Stability'' (AEoS), their behavior in this regime differs in a significant way from that of non-adaptive methods at the EoS. Whereas non-adaptive algorithms at the EoS are blocked from entering high-curvature regions of the loss landscape, adaptive gradient methods at the AEoS can keep advancing into high-curvature regions, while adapting the preconditioner to compensate. Our findings can serve as a foundation for the community's future understanding of adaptive gradient methods in deep learning.
- Abstract(参考訳): ディープラーニングにおけるAdamのような適応勾配法のトレーニング力学についてはほとんど知られていない。
本稿では,全バッチおよび十分大きなバッチ設定において,これらのアルゴリズムの動作について光を当てる。
具体的には、フルバッチトレーニングの間、プレコンディショニングされたヘッセンの最大固有値は、勾配降下アルゴリズムの安定性しきい値であるある数値で概ね等しいことを実証的に示す。
ステップサイズが$\eta$と$\beta_1 = 0.9$のAdamの場合、この安定性閾値は38/\eta$である。
特にバッチサイズが大きくなると、同様の効果がミニバッチトレーニング中に発生する。
しかし、適応的手法は「安定性のエッジ」 (AEoS) で訓練されるが、この体制におけるそれらの振る舞いは、EoSにおける非適応的手法とは大きく異なる。
EoSの非適応アルゴリズムは損失ランドスケープの高曲率領域への進入を妨げているが、AEoSの適応勾配法は、プリコンディショナに補償を施しつつ、高曲率領域への進入を継続することができる。
この知見は,ディープラーニングにおける適応的勾配法に関するコミュニティの今後の理解の基盤となる。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Adaptive Strategies in Non-convex Optimization [5.279475826661643]
アルゴリズムは、そのようなパラメータの事前知識を必要としない場合、あるパラメータに適応すると言われている。
この論文は3つのシナリオにおける適応アルゴリズムの研究を示す。
論文 参考訳(メタデータ) (2023-06-17T06:52:05Z) - On the SDEs and Scaling Rules for Adaptive Gradient Algorithms [45.007261870784475]
微分方程式(SDE)としての勾配 Descent (SGD) の適用により、研究者は連続的な最適化軌道の研究の利点を享受できるようになった。
本稿では、RMSpropとAdamのSDE近似を導出し、理論上の正確性を保証するとともに、それらの適用性を検証する。
論文 参考訳(メタデータ) (2022-05-20T16:39:03Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Adaptive Differentially Private Empirical Risk Minimization [95.04948014513226]
本稿では,適応的(確率的)勾配摂動法を提案する。
ADP法は,バニラランダムノイズを付加した標準微分プライベート法と比較して,実用性保証を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-10-14T15:02:20Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。