論文の概要: Sharpness-Aware Minimization and the Edge of Stability
- arxiv url: http://arxiv.org/abs/2309.12488v2
- Date: Fri, 29 Sep 2023 22:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 12:48:37.059633
- Title: Sharpness-Aware Minimization and the Edge of Stability
- Title(参考訳): シャープネス認識の最小化と安定性の限界
- Authors: Philip M. Long and Peter L. Bartlett
- Abstract要約: 勾配降下(GD)をステップサイズ$eta$でトレーニングすると、損失のHessianのノルムが約2/eta$に達するまで増加し、その後この値に変動することを示す。
我々は、Sharpness-Aware Minimization (SAM) の「安定性の端」に到達するための同様の計算を行う。
GDの場合とは異なり、SAM-edgeの結果は勾配のノルムに依存する。3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。
- 参考スコア(独自算出の注目度): 41.67506950748847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent experiments have shown that, often, when training a neural network
with gradient descent (GD) with a step size $\eta$, the operator norm of the
Hessian of the loss grows until it approximately reaches $2/\eta$, after which
it fluctuates around this value. The quantity $2/\eta$ has been called the
"edge of stability" based on consideration of a local quadratic approximation
of the loss. We perform a similar calculation to arrive at an "edge of
stability" for Sharpness-Aware Minimization (SAM), a variant of GD which has
been shown to improve its generalization. Unlike the case for GD, the resulting
SAM-edge depends on the norm of the gradient. Using three deep learning
training tasks, we see empirically that SAM operates on the edge of stability
identified by this analysis.
- Abstract(参考訳): 最近の実験では、ステップサイズ$\eta$の勾配降下(gd)を持つニューラルネットワークを訓練する場合、損失のヘッセンの演算子ノルムはおよそ2/\eta$に達するまで増加することが示されている。
2/\eta$の量は、損失の局所二次近似を考慮して「安定性の最先端」と呼ばれる。
我々は,GD の変種である SAM (Sharpness-Aware Minimization) の「安定性の端」に到達するための同様の計算を行う。
GDの場合とは異なり、結果のSAM-辺は勾配のノルムに依存する。
3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。
関連論文リスト
- Friendly Sharpness-Aware Minimization [62.57515991835801]
シャープネス・アウェアの最小化(SAM)は、トレーニング損失とロスシャープネスの両方を最小化することにより、ディープニューラルネットワークトレーニングの改善に役立っている。
対向性摂動におけるバッチ特異的勾配雑音の主な役割,すなわち現在のミニバッチ勾配について検討する。
逆勾配雑音成分を分解することにより、全勾配のみに依存すると一般化が低下し、除くと性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-19T01:39:33Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - K-SAM: Sharpness-Aware Minimization at the Speed of SGD [83.78737278889837]
シャープネス・アウェアの最小化(SAM)は、ディープニューラルネットワークの精度を向上させるための堅牢な手法として登場した。
SAMは実際に高い計算コストを発生させ、バニラSGDの2倍の計算を必要とする。
そこで本研究では,最大損失を持つトップkサンプルのみを用いてSAMの両段階の勾配を計算することを提案する。
論文 参考訳(メタデータ) (2022-10-23T21:49:58Z) - Understanding Edge-of-Stability Training Dynamics with a Minimalist
Example [20.714857891192345]
近年、ディープニューラルネットワークの降下は、EoS(Edge-of-stability')体制で行われていることが研究で明らかになった。
大規模局所領域におけるその力学について厳密な解析を行い、なぜ最終収束点が2/eta$にシャープネスを持つのかを説明する。
論文 参考訳(メタデータ) (2022-10-07T02:57:05Z) - Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability [40.17821914923602]
安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
論文 参考訳(メタデータ) (2022-09-30T17:15:12Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Understanding Gradient Descent on Edge of Stability in Deep Learning [32.03036040349019]
本稿では,EoS相における暗黙的正則化の新たなメカニズムを数学的に解析し,非滑らかな損失景観によるGD更新が,最小損失の多様体上の決定論的流れに沿って進化することを示した。
以上の理論的結果は実験によって裏付けられている。
論文 参考訳(メタデータ) (2022-05-19T17:57:01Z) - Understanding the unstable convergence of gradient descent [51.40523554349091]
機械学習アプリケーションでは、ステップサイズが$L$-smoothコストの場合、ステップサイズは2/L$未満である、という条件を満たさないことが多い。
我々は、この不安定収束現象を第一原理から検討し、その背景にある主要な原因を解明する。
我々はまた、その主な特徴とそれらの相互関係を識別し、理論と実験の両方に裏打ちされた透明なビューを提供する。
論文 参考訳(メタデータ) (2022-04-03T11:10:17Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。