論文の概要: The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion
- arxiv url: http://arxiv.org/abs/2107.09133v4
- Date: Thu, 28 Dec 2023 17:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-30 00:05:36.076427
- Title: The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion
- Title(参考訳): SGDの極限ダイナミクス:修正損失、位相空間振動、異常拡散
- Authors: Daniel Kunin, Javier Sagastuy-Brena, Lauren Gillespie, Eshed Margalit,
Hidenori Tanaka, Surya Ganguli, Daniel L. K. Yamins
- Abstract要約: 勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
- 参考スコア(独自算出の注目度): 29.489737359897312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we explore the limiting dynamics of deep neural networks trained
with stochastic gradient descent (SGD). As observed previously, long after
performance has converged, networks continue to move through parameter space by
a process of anomalous diffusion in which distance travelled grows as a power
law in the number of gradient updates with a nontrivial exponent. We reveal an
intricate interaction between the hyperparameters of optimization, the
structure in the gradient noise, and the Hessian matrix at the end of training
that explains this anomalous diffusion. To build this understanding, we first
derive a continuous-time model for SGD with finite learning rates and batch
sizes as an underdamped Langevin equation. We study this equation in the
setting of linear regression, where we can derive exact, analytic expressions
for the phase space dynamics of the parameters and their instantaneous
velocities from initialization to stationarity. Using the Fokker-Planck
equation, we show that the key ingredient driving these dynamics is not the
original training loss, but rather the combination of a modified loss, which
implicitly regularizes the velocity, and probability currents, which cause
oscillations in phase space. We identify qualitative and quantitative
predictions of this theory in the dynamics of a ResNet-18 model trained on
ImageNet. Through the lens of statistical physics, we uncover a mechanistic
origin for the anomalous limiting dynamics of deep neural networks trained with
SGD.
- Abstract(参考訳): 本研究では,確率勾配勾配(SGD)を用いて学習したディープニューラルネットワークの限界ダイナミクスについて検討する。
前述したように、性能が収束した後も、ネットワークはパラメータ空間を移動し続け、非自明な指数を持つ勾配更新数において、距離移動が電力法則として増加する異常拡散の過程を経た。
この異常拡散を説明するトレーニングの最後に,最適化のハイパーパラメータ,勾配雑音の構造,およびヘッセン行列の間の複雑な相互作用を明らかにする。
そこで我々はまず,有限学習率とバッチサイズを持つSGDの連続時間モデルをアンダーダム化ランゲヴィン方程式として導出した。
パラメータの位相空間ダイナミクスとその初期化から定常性に至るまでの瞬時速度について、厳密な解析式を導出できる線形回帰(英語版)の設定において、この方程式を考察する。
Fokker-Planck方程式を用いて、これらのダイナミクスを駆動する重要な要素は、もともとのトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
我々は、ImageNetで訓練されたResNet-18モデルの力学において、この理論の質的かつ定量的な予測を同定する。
統計物理学のレンズを通して、sgdで訓練された深層ニューラルネットワークの異常制限ダイナミクスのメカニックな起源を明らかにする。
関連論文リスト
- Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。