論文の概要: Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler
- arxiv url: http://arxiv.org/abs/2508.01483v1
- Date: Sat, 02 Aug 2025 20:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.899646
- Title: Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler
- Title(参考訳): Warmup-Stable-Decay Learning Rate Schedulerにおける冷却段階のトレーニングダイナミクス
- Authors: Aleksandr Dremov, Alexander Hägele, Atli Kosson, Martin Jaggi,
- Abstract要約: Warmup-Stableスケジューリングスケジューラのフェーズのみを網羅的に分析する。
我々の分析では、異なる形状が結果のモデルに基本的な偏見を示すことが明らかになっている。
また、景観の可視化も提供し、川流域の損失の視点を裏付ける。
- 参考スコア(独自算出の注目度): 106.59372118904957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning rate scheduling is essential in transformer training, where the final annealing plays a crucial role in getting the best performance. However, the mechanisms behind this cooldown phase, with its characteristic drop in loss, remain poorly understood. To address this, we provide a comprehensive analysis focusing solely on the cooldown phase in the Warmup-Stable-Decay (WSD) learning rate scheduler. Our analysis reveals that different cooldown shapes reveal a fundamental bias-variance trade-off in the resulting models, with shapes that balance exploration and exploitation consistently outperforming alternatives. Similarly, we find substantial performance variations $\unicode{x2013}$ comparable to those from cooldown shape selection $\unicode{x2013}$ when tuning AdamW hyperparameters. Notably, we observe consistent improvements with higher values of $\beta_2$ during cooldown. From a loss landscape perspective, we provide visualizations of the landscape during cooldown, supporting the river valley loss perspective empirically. These findings offer practical recommendations for configuring the WSD scheduler in transformer training, emphasizing the importance of optimizing the cooldown phase alongside traditional hyperparameter tuning.
- Abstract(参考訳): 学習率のスケジューリングは、最終アニールが最高のパフォーマンスを得る上で重要な役割を果たすトランスフォーマートレーニングにおいて不可欠である。
しかし、この冷却段階のメカニズムは、その特性的な損失の減少とともに、まだ理解されていない。
そこで本研究では,Warmup-Stable-Decay(WSD)学習率スケジューラの冷却位相に着目した総合解析を行った。
我々の分析では、異なる冷却形状は、結果として得られるモデルにおいて、基本的なバイアス分散トレードオフを示し、バランスの取れた形状と利用のバランスがオルタナティブを一貫して上回ることを示した。
同様に、AdamWハイパーパラメータをチューニングする際には、クーダウン形状選択の$\unicode{x2013}$に匹敵するパフォーマンス変化が生じる。
特に,冷却中は$\beta_2$の値が高い値で一貫した改善が観察される。
損失景観の観点からは,冷涼期における景観の可視化を行い,河川谷の損失観を実証的に支援する。
これらの結果は,従来のハイパーパラメータチューニングと並行して冷却位相を最適化することの重要性を強調し,トランスフォーマートレーニングにおいてWSDスケジューラを設定するための実用的な勧告を提供する。
関連論文リスト
- An Adaptive Volatility-based Learning Rate Scheduler [0.0]
VolSchedは、幾何学的ブラウン運動のようなプロセスにおけるボラティリティの概念にインスパイアされた、新しいLRスケジューラである。
長期精度と短期精度のボラティリティの比を計算することで、VolSchedはLRを高原から脱出させ、訓練を安定させるために減少させる。
論文 参考訳(メタデータ) (2025-07-11T05:45:53Z) - The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Phenomenon (ESP) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Leveraging Predictions in Smoothed Online Convex Optimization via
Gradient-based Algorithms [18.64335888217192]
オンライン凸最適化は、時間的変化のあるステージコストと追加のスイッチングコストで検討する。
スイッチングコストはすべてのステージにカップリングをもたらすため、長期的な予測は品質の低下に悩まされる傾向がある。
本稿では,勾配に基づくオンラインアルゴリズムReceding Horizon Inexact Gradient (RHIG)を導入し,その性能を動的後悔によって解析する。
論文 参考訳(メタデータ) (2020-11-25T06:25:51Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。