論文の概要: Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability
- arxiv url: http://arxiv.org/abs/2103.00065v1
- Date: Fri, 26 Feb 2021 22:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 23:24:29.412170
- Title: Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability
- Title(参考訳): ニューラルネットワーク上のグラディエントDescentは、通常安定性の端で発生する
- Authors: Jeremy M. Cohen, Simran Kaur, Yuanzhi Li, J. Zico Kolter, Ameet
Talwalkar
- Abstract要約: ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
- 参考スコア(独自算出の注目度): 94.4070247697549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We empirically demonstrate that full-batch gradient descent on neural network
training objectives typically operates in a regime we call the Edge of
Stability. In this regime, the maximum eigenvalue of the training loss Hessian
hovers just above the numerical value $2 / \text{(step size)}$, and the
training loss behaves non-monotonically over short timescales, yet consistently
decreases over long timescales. Since this behavior is inconsistent with
several widespread presumptions in the field of optimization, our findings
raise questions as to whether these presumptions are relevant to neural network
training. We hope that our findings will inspire future efforts aimed at
rigorously understanding optimization at the Edge of Stability. Code is
available at https://github.com/locuslab/edge-of-stability.
- Abstract(参考訳): 実験的に、ニューラルネットワークトレーニングの目的に対するフルバッチ勾配降下は、通常、安定性のエッジと呼ばれる体制で動作します。
この方法では、トレーニング損失ヘッシアンの最大固有値は数値値2 / \text{(step size)}$の真上をホバリングし、トレーニング損失は短い時間スケールで単調に振る舞うが、長い時間スケールで一貫して減少する。
この振舞いは最適化の分野で広範囲にわたる推定と矛盾するため、これらの推定がニューラルネットワークのトレーニングに関係しているかどうかという疑問が提起される。
我々は,安定性のエッジにおける最適化の厳密な理解を目的とした今後の取り組みに刺激を与えることを期待している。
コードはhttps://github.com/locuslab/edge-of-stabilityで入手できる。
関連論文リスト
- Training on the Edge of Stability Is Caused by Layerwise Jacobian Alignment [0.0]
我々は指数的解法を用いて、安定性の端に入ることなくニューラルネットワークを訓練する。
実験により,ヘッセン行列の鋭さの増加は,ネットワークの層状ジャコビアン行列の整合性によって引き起こされることを示した。
論文 参考訳(メタデータ) (2024-05-31T18:37:06Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Temporal Efficient Training of Spiking Neural Network via Gradient
Re-weighting [29.685909045226847]
脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、事象駆動的でエネルギー効率のよい特徴から、広く研究の関心を集めている。
シュロゲート勾配による現在の直接訓練手法は、一般化性に乏しいSNNに結果をもたらす。
SGによる勾配降下時の運動量の減少を補うための時間的効率訓練(TET)手法を導入する。
論文 参考訳(メタデータ) (2022-02-24T08:02:37Z) - Navigating Local Minima in Quantized Spiking Neural Networks [3.1351527202068445]
深層学習(DL)アルゴリズムの超効率的な実装においては,スパイキングと量子ニューラルネットワーク(NN)が極めて重要になっている。
これらのネットワークは、ハードしきい値を適用する際の勾配信号の欠如により、エラーのバックプロパゲーションを使用してトレーニングする際の課題に直面している。
本稿では,コサインアニールLRスケジュールと重み非依存適応モーメント推定を併用したシステム評価を行った。
論文 参考訳(メタデータ) (2022-02-15T06:42:25Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。