論文の概要: A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks
- arxiv url: http://arxiv.org/abs/2206.02001v4
- Date: Wed, 12 Jun 2024 15:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 02:02:19.050013
- Title: A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks
- Title(参考訳): 学習ニューラルネットワークにおける極端数値感度と安定性のエッジのPDEに基づく説明
- Authors: Yuxin Sun, Dong Lao, Ganesh Sundaramoorthi, Anthony Yezzi,
- Abstract要約: 勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
- 参考スコア(独自算出の注目度): 12.355137704908042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discover restrained numerical instabilities in current training practices of deep networks with stochastic gradient descent (SGD), and its variants. We show numerical error (on the order of the smallest floating point bit and thus the most extreme or limiting numerical perturbations induced from floating point arithmetic in training deep nets can be amplified significantly and result in significant test accuracy variance (sensitivities), comparable to the test accuracy variance due to stochasticity in SGD. We show how this is likely traced to instabilities of the optimization dynamics that are restrained, i.e., localized over iterations and regions of the weight tensor space. We do this by presenting a theoretical framework using numerical analysis of partial differential equations (PDE), and analyzing the gradient descent PDE of convolutional neural networks (CNNs). We show that it is stable only under certain conditions on the learning rate and weight decay. We show that rather than blowing up when the conditions are violated, the instability can be restrained. We show this is a consequence of the non-linear PDE associated with the gradient descent of the CNN, whose local linearization changes when over-driving the step size of the discretization, resulting in a stabilizing effect. We link restrained instabilities to the recently discovered Edge of Stability (EoS) phenomena, in which the stable step size predicted by classical theory is exceeded while continuing to optimize the loss and still converging. Because restrained instabilities occur at the EoS, our theory provides new insights and predictions about the EoS, in particular, the role of regularization and the dependence on the network complexity.
- Abstract(参考訳): 確率勾配降下(SGD)を有するディープネットワークの現在の訓練実践における抑制された数値不安定性とその変種を明らかにする。
トレーニング深度ネットにおいて、浮動小数点ビットの順に数値誤差(最小の浮動小数点ビットの順で、浮動小数点演算から引き起こされる最も極端なあるいは制限的な数値摂動)を著しく増幅することができ、SGDの確率性によるテスト精度のばらつき(感度)に匹敵する有意なテスト精度のばらつき(感度)をもたらす。
重みテンソル空間の反復と領域上の局所化を抑えられる最適化力学の不安定性に、このことがいかにトレースされたかを示す。
本研究では、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを解析する。
学習速度と減量率の一定の条件下でしか安定しないことを示す。
条件が破られたときに爆発する代わりに、不安定さを抑えることができることを示す。
これはCNNの勾配降下に伴う非線形PDEの結果であり、その局所線形化は離散化のステップサイズを過度に運転すると変化し、安定化効果をもたらす。
抑制された不安定性は、古典理論によって予測される安定なステップサイズを超過し、損失を最適化し、なお収束し続けるという、最近発見された安定性のエッジ(EoS)現象とリンクする。
抑制された不安定性はEoSで起こるので、我々の理論はEoS、特に正規化の役割とネットワークの複雑さへの依存についての新しい洞察と予測を提供する。
関連論文リスト
- Physics-informed deep learning and compressive collocation for high-dimensional diffusion-reaction equations: practical existence theory and numerics [5.380276949049726]
ディープラーニング(DL)に基づく高次元偏微分方程式の効率的な解法の開発と解析
理論的にも数値的にも,新しい安定かつ高精度なスペクトルコロケーション法と競合できることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:16:11Z) - Stable Neural Stochastic Differential Equations in Analyzing Irregular Time Series Data [3.686808512438363]
実世界の時系列データにおける不規則サンプリング間隔と欠落値は,従来の手法の課題である。
本稿では,Langevin-type SDE,Linear Noise SDE,Geometric SDEの3つの安定クラスを提案する。
本研究は,実世界の不規則時系列データを扱う上で,提案手法の有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-22T22:00:03Z) - On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Accurate and Reliable Forecasting using Stochastic Differential
Equations [48.21369419647511]
ディープラーニングモデルにとって、現実世界の環境に浸透する不確実性を適切に特徴付けることは、非常に困難である。
本論文では,HNNの予測平均と分散の相互作用を特徴づけるSDE-HNNを開発した。
本手法は,予測性能と不確実性定量化の両方の観点から,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-28T04:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。