論文の概要: Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions
- arxiv url: http://arxiv.org/abs/2505.20030v1
- Date: Mon, 26 May 2025 14:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.502236
- Title: Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions
- Title(参考訳): 順序-カオス遷移の系列としての深層学習における多重次数
- Authors: Wenbo Wei, Nicholas Chong Jia Le, Choy Heng Lai, Ling Feng,
- Abstract要約: LSTMのトレーニング過程において, モデルが過度に訓練された後, テスト損失が上下方向の長いサイクルを経る, 新たな「多重発色現象」が観察された。
モデルの安定性解析により,テスト損失の周期は秩序とカオスの間の相転移過程と密接に関連していることがわかった。
- 参考スコア(独自算出の注目度): 4.424479010649862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe a novel 'multiple-descent' phenomenon during the training process of LSTM, in which the test loss goes through long cycles of up and down trend multiple times after the model is overtrained. By carrying out asymptotic stability analysis of the models, we found that the cycles in test loss are closely associated with the phase transition process between order and chaos, and the local optimal epochs are consistently at the critical transition point between the two phases. More importantly, the global optimal epoch occurs at the first transition from order to chaos, where the 'width' of the 'edge of chaos' is the widest, allowing the best exploration of better weight configurations for learning.
- Abstract(参考訳): LSTMのトレーニング過程において, モデルが過度に訓練された後, 上昇傾向と下降傾向の長い周期を通して, テスト損失が進行する新たな「多発性」現象を観察した。
モデルの漸近安定性解析を行うことにより, 試験損失の周期は秩序とカオスの間の相転移過程と密接に関連しており, 局所最適エポックは両相間の臨界遷移点において一貫して一致することがわかった。
さらに重要なのは、グローバルな最適エポックは、"カオスの端"の"幅"が最も広く、学習のためのより優れた重み設定を探索する、という順番からカオスへの最初の移行時に発生します。
関連論文リスト
- New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。
摂動に対するネットワークの応答はカオスから安定への移行を示す。
また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文 参考訳(メタデータ) (2025-05-20T04:03:52Z) - On Multi-Stage Loss Dynamics in Neural Networks: Mechanisms of Plateau and Descent Stages [1.5235340620594793]
トレーニング中に得られた損失曲線は,初期高原ステージ,初期降下ステージ,二次高原ステージの3つの異なる段階を同定した。
厳密な分析を通じて,高原期における訓練の遅さに寄与する基礎的課題を明らかにする。
論文 参考訳(メタデータ) (2024-10-26T08:16:00Z) - Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization [41.20978920228298]
第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。
また、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。
我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。
論文 参考訳(メタデータ) (2024-06-12T21:33:22Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文 参考訳(メタデータ) (2022-05-25T06:00:34Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。