論文の概要: On Multi-Stage Loss Dynamics in Neural Networks: Mechanisms of Plateau and Descent Stages
- arxiv url: http://arxiv.org/abs/2410.20119v2
- Date: Wed, 06 Nov 2024 02:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 03:29:44.440709
- Title: On Multi-Stage Loss Dynamics in Neural Networks: Mechanisms of Plateau and Descent Stages
- Title(参考訳): ニューラルネットワークにおける多段損失ダイナミクス--プラトーステージと未成年ステージのメカニズム-
- Authors: Zheng-An Chen, Tao Luo, GuiHong Wang,
- Abstract要約: トレーニング中に得られた損失曲線は,初期高原ステージ,初期降下ステージ,二次高原ステージの3つの異なる段階を同定した。
厳密な分析を通じて,高原期における訓練の遅さに寄与する基礎的課題を明らかにする。
- 参考スコア(独自算出の注目度): 1.5235340620594793
- License:
- Abstract: The multi-stage phenomenon in the training loss curves of neural networks has been widely observed, reflecting the non-linearity and complexity inherent in the training process. In this work, we investigate the training dynamics of neural networks (NNs), with particular emphasis on the small initialization regime, identifying three distinct stages observed in the loss curve during training: the initial plateau stage, the initial descent stage, and the secondary plateau stage. Through rigorous analysis, we reveal the underlying challenges contributing to slow training during the plateau stages. While the proof and estimate for the emergence of the initial plateau were established in our previous work, the behaviors of the initial descent and secondary plateau stages had not been explored before. Here, we provide a more detailed proof for the initial plateau, followed by a comprehensive analysis of the initial descent stage dynamics. Furthermore, we examine the factors facilitating the network's ability to overcome the prolonged secondary plateau, supported by both experimental evidence and heuristic reasoning. Finally, to clarify the link between global training trends and local parameter adjustments, we use the Wasserstein distance to track the fine-scale evolution of weight amplitude distribution.
- Abstract(参考訳): ニューラルネットワークのトレーニング損失曲線における多段階現象は、トレーニングプロセスに固有の非線形性と複雑性を反映して広く観察されている。
本研究では,ニューラルネットワーク(NN)のトレーニングダイナミクスについて検討し,特に,トレーニング中に損失曲線で観察される3つの異なるステージ(初期台地,初期台地,二次台地)を同定した。
厳密な分析を通じて,高原期における訓練の遅さに寄与する基礎的課題を明らかにする。
前報では初期台地発生の証明と推定が確立されたが, 初期台地および二次台地の挙動は従来調査されなかった。
ここでは、初期台地についてより詳細な証明を行い、続いて、初期降下段階のダイナミクスを包括的に分析する。
さらに,実験的な証拠とヒューリスティックな推論の両面から,長大な二次台地を克服するネットワークの能力を高める要因について検討した。
最後に,大域的トレーニングトレンドと局所パラメータ調整の関連性を明らかにするため,重量振幅分布の微視的変化をワッサーシュタイン距離を用いて追跡する。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Catapult Dynamics and Phase Transitions in Quadratic Nets [10.32543637637479]
カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。
一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。
また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
論文 参考訳(メタデータ) (2023-01-18T19:03:48Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Deep learning versus kernel learning: an empirical study of loss
landscape geometry and the time evolution of the Neural Tangent Kernel [41.79250783277419]
本研究では,非線形深層ネットワークのトレーニング力学,損失ランドスケープの幾何学,およびデータ依存NTKの時間発展の関係について検討する。
複数のニューラルアーキテクチャとデータセットにおいて、これらの多様な尺度は高度に相関した方法で進化し、ディープラーニングプロセスの普遍的なイメージを明らかにする。
論文 参考訳(メタデータ) (2020-10-28T17:53:01Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。