論文の概要: Surprising Instabilities in Training Deep Networks and a Theoretical
Analysis
- arxiv url: http://arxiv.org/abs/2206.02001v3
- Date: Thu, 2 Feb 2023 04:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:51:07.835287
- Title: Surprising Instabilities in Training Deep Networks and a Theoretical
Analysis
- Title(参考訳): 深層ネットワーク訓練における意外な不安定性と理論的解析
- Authors: Yuxin Sun, Dong Lao, Ganesh Sundaramoorthi, Anthony Yezzi
- Abstract要約: 勾配降下を伴う深層ネットワークの訓練実践において,抑制された数値不安定性を示す。
抑制不安定性は、最近発見された安定性のエッジ(EoS)現象とリンクする。
- 参考スコア(独自算出の注目度): 16.45381674562214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discover restrained numerical instabilities in current training practices
of deep networks with stochastic gradient descent (SGD). We show numerical
error (on the order of the smallest floating point bit) induced from floating
point arithmetic in training deep nets can be amplified significantly and
result in significant test accuracy variance, comparable to the test accuracy
variance due to stochasticity in SGD. We show how this is likely traced to
instabilities of the optimization dynamics that are restrained, i.e., localized
over iterations and regions of the weight tensor space. We do this by
presenting a theoretical framework using numerical analysis of partial
differential equations (PDE), and analyzing the gradient descent PDE of
convolutional neural networks (CNNs). We show that it is stable only under
certain conditions on the learning rate and weight decay. We show that rather
than blowing up when the conditions are violated, the instability can be
restrained. We show this is a consequence of the non-linear PDE associated with
the gradient descent of the CNN, whose local linearization changes when
over-driving the step size of the discretization, resulting in a stabilizing
effect. We link restrained instabilities to the recently discovered Edge of
Stability (EoS) phenomena, in which the stable step size predicted by classical
theory is exceeded while continuing to optimize the loss and still converging.
Because restrained instabilities occur at the EoS, our theory provides new
predictions about the EoS, in particular, the role of regularization and the
dependence on the network complexity.
- Abstract(参考訳): 確率的勾配降下(sgd)を伴う深層ネットワークの現在のトレーニング実践で抑制された数値不安定性を見出した。
トレーニング深度ネットにおいて浮動小数点演算から誘導される数値誤差(最小浮動小数点ビットの順)を著しく増幅することができ、SGDの確率性によるテスト精度のばらつきに匹敵する有意なテスト精度のばらつきを生じさせる。
重みテンソル空間の反復と領域上の局所化を抑えられる最適化力学の不安定性に、このことがいかにトレースされたかを示す。
本研究では、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを解析する。
学習速度と減量率の一定の条件下でしか安定しないことを示す。
条件が破られたときに爆発する代わりに、不安定さを抑えることができることを示す。
これはCNNの勾配降下に伴う非線形PDEの結果であり、その局所線形化は離散化のステップサイズを過度に運転すると変化し、安定化効果をもたらす。
古典的理論によって予測される安定なステップサイズは、損失の最適化と収束を継続しながら超過する、最近発見された安定性のエッジ(eos)現象に拘束された不安定性を関連付ける。
eosにおいて抑制された不安定性が生じるため、本理論はeos、特に正規化の役割とネットワーク複雑性への依存に関する新しい予測を提供する。
関連論文リスト
- Physics-informed deep learning and compressive collocation for high-dimensional diffusion-reaction equations: practical existence theory and numerics [5.380276949049726]
ディープラーニング(DL)に基づく高次元偏微分方程式の効率的な解法の開発と解析
理論的にも数値的にも,新しい安定かつ高精度なスペクトルコロケーション法と競合できることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:16:11Z) - Stable Neural Stochastic Differential Equations in Analyzing Irregular Time Series Data [3.686808512438363]
実世界の時系列データにおける不規則サンプリング間隔と欠落値は,従来の手法の課題である。
本稿では,Langevin-type SDE,Linear Noise SDE,Geometric SDEの3つの安定クラスを提案する。
本研究は,実世界の不規則時系列データを扱う上で,提案手法の有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-22T22:00:03Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Accurate and Reliable Forecasting using Stochastic Differential
Equations [48.21369419647511]
ディープラーニングモデルにとって、現実世界の環境に浸透する不確実性を適切に特徴付けることは、非常に困難である。
本論文では,HNNの予測平均と分散の相互作用を特徴づけるSDE-HNNを開発した。
本手法は,予測性能と不確実性定量化の両方の観点から,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-28T04:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。