論文の概要: Conservation Law Breaking at the Edge of Stability: A Spectral Theory of Non-Convex Neural Network Optimization
- arxiv url: http://arxiv.org/abs/2604.07405v1
- Date: Wed, 08 Apr 2026 10:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.453459
- Title: Conservation Law Breaking at the Edge of Stability: A Spectral Theory of Non-Convex Neural Network Optimization
- Title(参考訳): 安定の端における保全法--非凸ニューラルネットワーク最適化のスペクトル理論
- Authors: Daniel Nobrega Medeiros,
- Abstract要約: 非次元ネットワーク最適化において、勾配勾配勾配が確実に良い解となることを示す。
幅依存性の動的遷移によって分離された2つの規則を同定する。
全ての予測は23の実験で検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why does gradient descent reliably find good solutions in non-convex neural network optimization, despite the landscape being NP-hard in the worst case? We show that gradient flow on L-layer ReLU networks without bias preserves L-1 conservation laws C_l = ||W_{l+1}||_F^2 - ||W_l||_F^2, confining trajectories to lower-dimensional manifolds. Under discrete gradient descent, these laws break with total drift scaling as eta^alpha where alpha is approximately 1.1-1.6 depending on architecture, loss function, and width. We decompose this drift exactly as eta^2 * S(eta), where the gradient imbalance sum S(eta) admits a closed-form spectral crossover formula with mode coefficients c_k proportional to e_k(0)^2 * lambda_{x,k}^2, derived from first principles and validated for both linear (R=0.85) and ReLU (R>0.80) networks. For cross-entropy loss, softmax probability concentration drives exponential Hessian spectral compression with timescale tau = Theta(1/eta) independent of training set size, explaining why cross-entropy self-regularizes the drift exponent near alpha=1.0. We identify two dynamical regimes separated by a width-dependent transition: a perturbative sub-Edge-of-Stability regime where the spectral formula applies, and a non-perturbative regime with extensive mode coupling. All predictions are validated across 23 experiments.
- Abstract(参考訳): なぜ勾配降下は、最悪の場合、NPハードなランドスケープにもかかわらず、非凸ニューラルネットワーク最適化において確実に良い解を見出すのか?
C_l = ||W_{l+1}||F^2 - ||W_l||_F^2, 軌道を下次元多様体に収束させる。
離散勾配勾配下では、これらの法則はアーキテクチャ、損失関数、幅に応じてαが約1.1-1.6であるeta^alphaとして全ドリフトスケーリングで破られる。
このドリフトを eta^2 * S(eta) と正確に分解し、勾配不均衡和 S(eta) は e_k(0)^2 * lambda_{x,k}^2 に比例するモード係数 c_k の閉形式スペクトルクロスオーバー式を許容する。
クロスエントロピー損失に対して、ソフトマックス確率集中は、トレーニングセットサイズに依存しない時間スケールタウ = Theta(1/eta) による指数ヘッセンスペクトル圧縮を駆動し、なぜクロスエントロピーがアルファ=1.0付近のドリフト指数を自己正規化するのかを説明する。
スペクトル公式を適用する摂動的サブエッジ・オブ・ステイビリティ・レジームと,広帯域モード結合を有する非摂動的レジームの2つを,幅依存的な遷移によって分離した動的レジームを同定する。
全ての予測は23の実験で検証される。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult [49.8719617899285]
非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。
この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
論文 参考訳(メタデータ) (2023-10-26T01:11:17Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Fast Robust Kernel Regression through Sign Gradient Descent with Early Stopping [1.5229257192293204]
カーネルリッジ回帰(カーネルリッジ回帰、英: Kernel ridge regression、KRR)は、データにおいて非線形であるが、モデルパラメータでは線形である線形リッジ回帰の一般化である。
我々は、KRRの目的関数の等価性を導入し、リッジペナルティを$ell_infty$と$ell_1$ペナルティに置き換える。
提案手法は精度を損なうことなく, 桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2023-06-29T10:29:29Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Implicit Bias of Gradient Descent for Mean Squared Error Regression with
Two-Layer Wide Neural Networks [1.3706331473063877]
幅$n$浅いReLUネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n-1/2$以内であることを示す。
また, トレーニング軌道はスムーズなスプラインの軌道によって捕捉され, 正規化強度は低下することを示した。
論文 参考訳(メタデータ) (2020-06-12T17:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。