論文の概要: How to set AdamW's weight decay as you scale model and dataset size
- arxiv url: http://arxiv.org/abs/2405.13698v1
- Date: Wed, 22 May 2024 14:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:45:08.035824
- Title: How to set AdamW's weight decay as you scale model and dataset size
- Title(参考訳): モデルとデータセットサイズをスケールするAdamWの体重減衰の設定方法
- Authors: Xi Wang, Laurence Aitchison,
- Abstract要約: 我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)として理解することができることを示す。
これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。
- 参考スコア(独自算出の注目度): 29.980824873382833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that weights learned by AdamW can be understood as an exponential moving average (EMA) of recent updates. This gives critical insights for how to set the weight decay in AdamW, and how the weight decay should scale with model and dataset size. In particular, the key hyperparameter for an exponential moving average is the EMA timescale. Intuitively, the EMA timescale can be understood as the number of recent iterations the EMA averages over. Given a fixed learning rate, there is a one-to-one mapping from the EMA timescale to the usual weight decay hyperparameter. Thus, choosing an EMA timescale implicitly sets the weight decay. Importantly, there are natural guidelines for sensible values for the EMA timescale: we need to average over all datapoints, so the EMA timescale should not be (much) smaller than 1 epoch, and we need to forget early updates, so the EMA timescale should not be (much) bigger than the total number of training epochs. In our experiments, we find that optimal EMA timescales are consistent with these guidelines, as are the hyperparameters chosen in recent large-scale LLM pretraining runs (e.g.\ Llama 1+2 and Stable LM). Critically, these guidelines suggest that the optimal EMA timescale should not change (much) as we scale the model and dataset. That implies that as the dataset size increases, the optimal weight decay should fall. Moreover, as the model size increases, the optimal weight decay should also increase (if we follow the muP recommendation for scaling the learning rate).
- Abstract(参考訳): 我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)と解釈できることを示した。
これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。
特に、指数移動平均の鍵ハイパーパラメータは、EMAタイムスケールである。
直感的には、EMAのタイムスケールは、EMAが平均する最近のイテレーションの数として理解することができる。
一定の学習率を与えられた場合、EMAタイムスケールから通常の重み減衰ハイパーパラメータへの1対1のマッピングがある。
したがって、EMA の時間スケールを選択すると、暗黙的に重みが減衰する。
重要なことは、EMAの時間スケールには自然なガイドラインがある: すべてのデータポイントを平均する必要があり、EMAの時間スケールは1エポック以下であるべきではなく、早期更新を忘れる必要があるため、EMAの時間スケールはトレーニングエポックの総数より大きくならない。
実験では,近年の大規模LLMプレトレーニングラン(eg \ Llama 1+2 and Stable LM)で選択されたハイパーパラメータと同様に,最適EMAタイムスケールはこれらのガイドラインと一致していることがわかった。
これらのガイドラインは、モデルとデータセットをスケールするため、最適なEMAタイムスケールは変更すべきでないことを示唆しています。
つまり、データセットのサイズが大きくなると、最適な重量減衰が減少する。
さらに、モデルのサイズが大きくなるにつれて、最適な重量減少も増加する(学習率を拡大する muP 勧告に従うと)。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Why Do We Need Weight Decay in Modern Deep Learning? [27.110071835818808]
重崩壊は、大規模言語モデルを含む最先端のディープネットワークを訓練する技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
本稿では,SGDの非正規化を常に強調する最適化力学を,重み減衰がいかに修飾するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Amos: An Adam-style Optimizer with Adaptive Weight Decay towards
Model-Oriented Scale [16.97880876259831]
Amosは、ディープニューラルネットワークをトレーニングするための勾配ベースのシステムである。
理論的に支持され、適応的な学習速度の減衰と重みの崩壊を持つアダムと見なすことができる。
論文 参考訳(メタデータ) (2022-10-21T02:37:58Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。