論文の概要: Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training
- arxiv url: http://arxiv.org/abs/2410.23922v1
- Date: Thu, 31 Oct 2024 13:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:02.279329
- Title: Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training
- Title(参考訳): GPTトレーニングにおける学習率ワームアップの必要性の分析と削減
- Authors: Atli Kosson, Bettina Messmer, Martin Jaggi,
- Abstract要約: ウォームアップは、Delta mathbfw_t$の全体サイズを制限してトレーニングに役立ちます。
ウォームアップは、トレーニングの初期段階で重要なバッチサイズが制限されただけでなく、大きな角の更新に対処するのに役立つことに気付きました。
- 参考スコア(独自算出の注目度): 33.88586668321127
- License:
- Abstract: Learning Rate Warmup is a popular heuristic for training neural networks, especially at larger batch sizes, despite limited understanding of its benefits. Warmup decreases the update size $\Delta \mathbf{w}_t = \eta_t \mathbf{u}_t$ early in training by using lower values for the learning rate $\eta_t$. In this work we argue that warmup benefits training by keeping the overall size of $\Delta \mathbf{w}_t$ limited, counteracting large initial values of $\mathbf{u}_t$. Focusing on small-scale GPT training with AdamW/Lion, we explore the following question: Why and by which criteria are early updates $\mathbf{u}_t$ too large? We analyze different metrics for the update size including the $\ell_2$-norm, resulting directional change, and impact on the representations of the network, providing a new perspective on warmup. In particular, we find that warmup helps counteract large angular updates as well as a limited critical batch size early in training. Finally, we show that the need for warmup can be significantly reduced or eliminated by modifying the optimizer to explicitly normalize $\mathbf{u}_t$ based on the aforementioned metrics.
- Abstract(参考訳): Learning Rate Warmupは、ニューラルネットワーク、特に大きなバッチサイズをトレーニングするための一般的なヒューリスティックである。
Warmupは、学習レート$\eta_t$の低い値を使用することで、トレーニングの早期に更新サイズ$\Delta \mathbf{w}_t = \eta_t \mathbf{u}_t$を下げる。
この研究において、ウォームアップは、$\Delta \mathbf{w}_t$ の全体サイズを制限し、$\mathbf{u}_t$ の大きな初期値に対抗してトレーニングを行う。
AdamW/Lion による小規模 GPT トレーニングに焦点をあてて,次のような疑問を探る。
我々は、$\ell_2$-normなど、更新サイズに関するさまざまなメトリクスを分析し、その結果、方向性の変化と、ネットワークの表現への影響を分析し、ウォームアップに関する新たな視点を提供します。
特に、ウォームアップは、トレーニングの早い段階で重要なバッチサイズが制限されただけでなく、大きな角の更新に対応するのに役立ちます。
最後に、上記の指標に基づいて、$\mathbf{u}_t$を明示的に正規化するためにオプティマイザを変更することで、ウォームアップの必要性を著しく低減または排除できることを示す。
関連論文リスト
- Why Warmup the Learning Rate? Underlying Mechanisms and Improvements [0.0]
ディープラーニングでは、$eta_textinit = 0$と所定のターゲットである$eta_texttrgt$の間の線形スケジュールによって、学習率を$eta$にウォームアップすることが一般的である。
本稿では、SGDとAdamを用いた系統的な実験を通して、ウォームアップの圧倒的な利点は、ネットワークがより大きな$eta_texttrgt$を許容することにあることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:35Z) - Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training [0.0]
パラメータが$n=1014$を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$の振る舞いを研究することが極めて重要である。
広義のニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$nから+infty$制限に焦点を当てている。
この研究では、それらの振る舞いを大まかに研究するが、有限$n$である。
論文 参考訳(メタデータ) (2023-04-06T21:34:13Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。