論文の概要: Why Warmup the Learning Rate? Underlying Mechanisms and Improvements
- arxiv url: http://arxiv.org/abs/2406.09405v2
- Date: Fri, 01 Nov 2024 18:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:50.459137
- Title: Why Warmup the Learning Rate? Underlying Mechanisms and Improvements
- Title(参考訳): なぜ学習率を温めるのか : メカニズムと改善
- Authors: Dayal Singh Kalra, Maissam Barkeshli,
- Abstract要約: ディープラーニングでは、$eta_textinit = 0$と所定のターゲットである$eta_texttrgt$の間の線形スケジュールによって、学習率を$eta$にウォームアップすることが一般的である。
本稿では、SGDとAdamを用いた系統的な実験を通して、ウォームアップの圧倒的な利点は、ネットワークがより大きな$eta_texttrgt$を許容することにあることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: It is common in deep learning to warm up the learning rate $\eta$, often by a linear schedule between $\eta_{\text{init}} = 0$ and a predetermined target $\eta_{\text{trgt}}$. In this paper, we show through systematic experiments using SGD and Adam that the overwhelming benefit of warmup arises from allowing the network to tolerate larger $\eta_{\text{trgt}}$ {by forcing the network to more well-conditioned areas of the loss landscape}. The ability to handle larger $\eta_{\text{trgt}}$ makes hyperparameter tuning more robust while improving the final performance. We uncover different regimes of operation during the warmup period, depending on whether training starts off in a progressive sharpening or sharpness reduction phase, which in turn depends on the initialization and parameterization. Using these insights, we show how $\eta_{\text{init}}$ can be properly chosen by utilizing the loss catapult mechanism, which saves on the number of warmup steps, in some cases completely eliminating the need for warmup. We also suggest an initialization for the variance in Adam which provides benefits similar to warmup.
- Abstract(参考訳): ディープラーニングでは、学習率を$\eta$、しばしば$\eta_{\text{init}} = 0$と所定のターゲットである$\eta_{\text{trgt}}$の間の線形スケジュールでウォームアップするのが一般的である。
本稿では、SGDとAdamを用いた系統実験を通して、ネットワークがより大きな$\eta_{\text{trgt}}$ { by the network forced to more well-conditioned area of the loss landscape} を許容することで、ウォームアップの圧倒的な利点が生じることを示した。
より大きな$\eta_{\text{trgt}}$を扱う能力は、最終的なパフォーマンスを改善しながら、ハイパーパラメータチューニングをより堅牢にする。
ウォームアップ期間中に,初期化とパラメータ化に依存する急激なシャープニングまたはシャープネス低減フェーズでトレーニングを開始するかによって異なる操作条件を明らかにする。
これらの知見を用いて、損失カタパルト機構を利用して$\eta_{\text{init}}$を適切に選択する方法を示す。
我々はまた、ウォームアップと同様の利点を提供するAdamにおける分散の初期化を提案する。
関連論文リスト
- Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training [33.88586668321127]
ウォームアップは、Delta mathbfw_t$の全体サイズを制限してトレーニングに役立ちます。
ウォームアップは、トレーニングの初期段階で重要なバッチサイズが制限されただけでなく、大きな角の更新に対処するのに役立つことに気付きました。
論文 参考訳(メタデータ) (2024-10-31T13:32:39Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Learning a Consensus Sub-Network with Polarization Regularization and
One Pass Training [3.2214522506924093]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10 と CIFAR-100 を用いた結果,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - FreezeNet: Full Performance by Reduced Storage Costs [68.8204255655161]
プルーニングはパラメータを0に設定することでスパースネットワークを生成する。
我々は、追加のストレージコストを加えることなく、トレーニング前に適用したワンショットプルーニング法を改善した。
我々はFreezeNetsが特に極端凍結速度で良い結果を得ることを示す。
論文 参考訳(メタデータ) (2020-11-28T08:32:44Z) - Temperature check: theory and practice for training models with
softmax-cross-entropy losses [21.073524360170833]
ソフトマックス-クロスエントロピー損失を学習したモデルに対する早期学習理論を開発する。
一般化性能は温度に大きく依存するが,初期ロジット等級には弱い。
論文 参考訳(メタデータ) (2020-10-14T18:26:23Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。