論文の概要: Learning Dynamics of Deep Linear Networks Beyond the Edge of Stability
- arxiv url: http://arxiv.org/abs/2502.20531v1
- Date: Thu, 27 Feb 2025 21:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:47.657714
- Title: Learning Dynamics of Deep Linear Networks Beyond the Edge of Stability
- Title(参考訳): 安定の端を超えた深い線形ネットワークの学習ダイナミクス
- Authors: Avrajit Ghosh, Soo Min Kwon, Rongrong Wang, Saiprasad Ravishankar, Qing Qu,
- Abstract要約: 一定の学習率で勾配勾配勾配を学習した深部ニューラルネットワークは「安定性の最先端」の状態で動作している
EOS以外の損失振動は周期的なカオスへの経路を辿ることを示す。
本結果は,ディープネットワークにおける2つの重要な現象の説明に寄与する。
- 参考スコア(独自算出の注目度): 14.88048518927001
- License:
- Abstract: Deep neural networks trained using gradient descent with a fixed learning rate $\eta$ often operate in the regime of "edge of stability" (EOS), where the largest eigenvalue of the Hessian equilibrates about the stability threshold $2/\eta$. In this work, we present a fine-grained analysis of the learning dynamics of (deep) linear networks (DLNs) within the deep matrix factorization loss beyond EOS. For DLNs, loss oscillations beyond EOS follow a period-doubling route to chaos. We theoretically analyze the regime of the 2-period orbit and show that the loss oscillations occur within a small subspace, with the dimension of the subspace precisely characterized by the learning rate. The crux of our analysis lies in showing that the symmetry-induced conservation law for gradient flow, defined as the balancing gap among the singular values across layers, breaks at EOS and decays monotonically to zero. Overall, our results contribute to explaining two key phenomena in deep networks: (i) shallow models and simple tasks do not always exhibit EOS; and (ii) oscillations occur within top features. We present experiments to support our theory, along with examples demonstrating how these phenomena occur in nonlinear networks and how they differ from those which have benign landscape such as in DLNs.
- Abstract(参考訳): 一定の学習率$\eta$で勾配勾配を用いてトレーニングされたディープニューラルネットワークは、しばしば「安定の端」(EOS)の状態で動作し、ヘッセン族の最大固有値は安定性閾値2/\eta$について平衡する。
本研究では,(深度)線形ネットワーク(DLN)の学習力学を,EOSを超える深い行列分解損失の中で詳細に解析する。
DLNの場合、EOS以外の損失振動は周期的なカオスへの経路を辿る。
理論的には、2周期軌道の規則を解析し、損失振動が小さな部分空間内で発生し、その部分空間の次元は学習速度によって正確に特徴づけられることを示す。
我々の分析の要点は、勾配流の対称性による保存則が、層間の特異値のバランスギャップとして定義され、EOSで崩壊し、単調に0に崩壊することを示すことである。
全体として、私たちの結果はディープネットワークにおける2つの重要な現象を説明することに寄与している。
(i)浅いモデルと簡単なタスクが常にEOSを示すとは限らないこと、
(ii)上層部で発振が起こる。
本稿では,非線形ネットワークにおいてこれらの現象がどのように起こるか,DLNのような良質な景観を持つものとどのように異なるのかを示す実例とともに,我々の理論を支持する実験を紹介する。
関連論文リスト
- Understanding Edge-of-Stability Training Dynamics with a Minimalist
Example [20.714857891192345]
近年、ディープニューラルネットワークの降下は、EoS(Edge-of-stability')体制で行われていることが研究で明らかになった。
大規模局所領域におけるその力学について厳密な解析を行い、なぜ最終収束点が2/eta$にシャープネスを持つのかを説明する。
論文 参考訳(メタデータ) (2022-10-07T02:57:05Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。