論文の概要: Analyzing Multi-Stage Loss Curve: Plateau and Descent Mechanisms in Neural Networks
- arxiv url: http://arxiv.org/abs/2410.20119v1
- Date: Sat, 26 Oct 2024 08:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:51.332098
- Title: Analyzing Multi-Stage Loss Curve: Plateau and Descent Mechanisms in Neural Networks
- Title(参考訳): マルチステージ損失曲線の解析:ニューラルネットワークのプラトーとディフレッシュメカニズム
- Authors: Zheng-An Chen, Tao Luo, GuiHong Wang,
- Abstract要約: ニューラルネットワーク(NN)のトレーニングダイナミクスについて検討する。
トレーニング中に得られた損失曲線は,初期台地ステージ,初期降下ステージ,二次台地ステージの3つの異なる段階を同定した。
- 参考スコア(独自算出の注目度): 1.5235340620594793
- License:
- Abstract: The multi-stage phenomenon in the training loss curves of neural networks has been widely observed, reflecting the non-linearity and complexity inherent in the training process. In this work, we investigate the training dynamics of neural networks (NNs), with particular emphasis on the small initialization regime and identify three distinct stages observed in the loss curve during training: initial plateau stage, initial descent stage, and secondary plateau stage. Through rigorous analysis, we reveal the underlying challenges causing slow training during the plateau stages. Building on existing work, we provide a more detailed proof for the initial plateau. This is followed by a comprehensive analysis of the dynamics in the descent stage. Furthermore, we explore the mechanisms that enable the network to overcome the prolonged secondary plateau stage, supported by both experimental evidence and heuristic reasoning. Finally, to better understand the relationship between global training trends and local parameter adjustments, we employ the Wasserstein distance to capture the microscopic evolution of weight amplitude distribution.
- Abstract(参考訳): ニューラルネットワークのトレーニング損失曲線における多段階現象は、トレーニングプロセスに固有の非線形性と複雑性を反映して広く観察されている。
本研究では,ニューラルネットワーク(NN)のトレーニングダイナミクスについて検討し,特に小さな初期化体制に着目し,トレーニング中に損失曲線で観察される3つの異なるステージ(初期台地,初期降下期,二次台地)を同定した。
厳密な分析により,高原期における訓練の遅さの原因となる課題を明らかにした。
既存の作業に基づいて、初期高原のより詳細な証明を提供する。
これに続いて、降下段階の力学を包括的に分析する。
さらに,実験的な証拠とヒューリスティックな推論の両面から,ネットワークが長期にわたる二次台地ステージを克服する機構について検討した。
最後に、大域的トレーニングトレンドと局所パラメータ調整の関係をよりよく理解するために、重量振幅分布の微視的進化を捉えるために、ワッサーシュタイン距離を用いる。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Catapult Dynamics and Phase Transitions in Quadratic Nets [10.32543637637479]
カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。
一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。
また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
論文 参考訳(メタデータ) (2023-01-18T19:03:48Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Deep learning versus kernel learning: an empirical study of loss
landscape geometry and the time evolution of the Neural Tangent Kernel [41.79250783277419]
本研究では,非線形深層ネットワークのトレーニング力学,損失ランドスケープの幾何学,およびデータ依存NTKの時間発展の関係について検討する。
複数のニューラルアーキテクチャとデータセットにおいて、これらの多様な尺度は高度に相関した方法で進化し、ディープラーニングプロセスの普遍的なイメージを明らかにする。
論文 参考訳(メタデータ) (2020-10-28T17:53:01Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。