論文の概要: Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability
- arxiv url: http://arxiv.org/abs/2207.12678v1
- Date: Tue, 26 Jul 2022 06:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:05:05.692195
- Title: Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability
- Title(参考訳): GD軌道に沿ったシャープネスの解析:プログレッシブシャープニングと安定性のエッジ
- Authors: Zhouzi Li, Zixuan Wang, Jian Li
- Abstract要約: 本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
- 参考スコア(独自算出の注目度): 8.492339290649031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent findings (e.g., arXiv:2103.00065) demonstrate that modern neural
networks trained by full-batch gradient descent typically enter a regime called
Edge of Stability (EOS). In this regime, the sharpness, i.e., the maximum
Hessian eigenvalue, first increases to the value 2/(step size) (the progressive
sharpening phase) and then oscillates around this value (the EOS phase). This
paper aims to analyze the GD dynamics and the sharpness along the optimization
trajectory. Our analysis naturally divides the GD trajectory into four phases
depending on the change of the sharpness. We empirically identify the norm of
output layer weight as an interesting indicator of sharpness dynamics. Based on
this empirical observation, we attempt to theoretically and empirically explain
the dynamics of various key quantities that lead to the change of sharpness in
each phase of EOS. Moreover, based on certain assumptions, we provide a
theoretical proof of the sharpness behavior in EOS regime in two-layer
fully-connected linear neural networks. We also discuss some other empirical
findings and the limitation of our theoretical results.
- Abstract(参考訳): 最近の研究(例えばarxiv:2103.00065)では、フルバッチ勾配で訓練された現代のニューラルネットワークは、一般的にはedge of stability (eos)と呼ばれるレジームに入ることが示されている。
この状態において、最大ヘッセン固有値(すなわち最大ヘッセン固有値)のシャープネスは、まず値2/(ステップサイズ)に増加し、次にこの値(EOS位相)の周りに振動する。
本稿では,最適化軌道に沿ったGDダイナミクスと鋭さを解析することを目的とする。
我々の解析は, 鋭さの変化に応じて, GD軌道を4つの位相に自然に分割する。
我々は、出力層重みの標準をシャープネスダイナミクスの興味深い指標として経験的に識別する。
この経験的観察に基づいて、EOSの各相におけるシャープネスの変化につながる様々な鍵量の力学を理論的かつ実証的に説明しようとする。
さらに、ある仮定に基づいて、2層完全連結線形ニューラルネットワークにおけるEOS状態のシャープネス挙動の理論的証明を提供する。
また, 実験結果と理論結果の限界についても考察した。
関連論文リスト
- Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Trajectory Alignment: Understanding the Edge of Stability Phenomenon via
Bifurcation Theory [14.141453107129403]
我々は、勾配降下軌道に沿って、損失ヘッセンの最大の固有値(シャープネスとしても知られる)の進化について研究する。
トレーニングの初期段階ではシャープネスが増加し、最終的には2/text(ステップサイズ)$のしきい値に近く飽和する。
論文 参考訳(メタデータ) (2023-07-09T15:16:45Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Phase diagram of early training dynamics in deep neural networks: effect
of the learning rate, depth, and width [0.0]
勾配降下法(SGD)を訓練したディープニューラルネットワーク(DNN)の最適化ダイナミクスを系統的に解析する。
力学は、(i)早期過渡的体制、(ii)中期飽和体制、(iii)進歩的鋭化体制、(iv)後期安定体制の4つの異なる状態を示すことができる。
論文 参考訳(メタデータ) (2023-02-23T18:59:30Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。