Fugu-MT 論文翻訳(概要): How to set AdamW's weight decay as you scale model and dataset size

論文の概要: How to set AdamW's weight decay as you scale model and dataset size

arxiv url: http://arxiv.org/abs/2405.13698v1
Date: Wed, 22 May 2024 14:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 23:45:08.035824
Title: How to set AdamW's weight decay as you scale model and dataset size
Title（参考訳）: モデルとデータセットサイズをスケールするAdamWの体重減衰の設定方法
Authors: Xi Wang, Laurence Aitchison,
Abstract要約: 我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)として理解することができることを示す。これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。
参考スコア（独自算出の注目度）: 29.980824873382833
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that weights learned by AdamW can be understood as an exponential moving average (EMA) of recent updates. This gives critical insights for how to set the weight decay in AdamW, and how the weight decay should scale with model and dataset size. In particular, the key hyperparameter for an exponential moving average is the EMA timescale. Intuitively, the EMA timescale can be understood as the number of recent iterations the EMA averages over. Given a fixed learning rate, there is a one-to-one mapping from the EMA timescale to the usual weight decay hyperparameter. Thus, choosing an EMA timescale implicitly sets the weight decay. Importantly, there are natural guidelines for sensible values for the EMA timescale: we need to average over all datapoints, so the EMA timescale should not be (much) smaller than 1 epoch, and we need to forget early updates, so the EMA timescale should not be (much) bigger than the total number of training epochs. In our experiments, we find that optimal EMA timescales are consistent with these guidelines, as are the hyperparameters chosen in recent large-scale LLM pretraining runs (e.g.\ Llama 1+2 and Stable LM). Critically, these guidelines suggest that the optimal EMA timescale should not change (much) as we scale the model and dataset. That implies that as the dataset size increases, the optimal weight decay should fall. Moreover, as the model size increases, the optimal weight decay should also increase (if we follow the muP recommendation for scaling the learning rate).
Abstract（参考訳）: 我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)と解釈できることを示した。これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。特に、指数移動平均の鍵ハイパーパラメータは、EMAタイムスケールである。直感的には、EMAのタイムスケールは、EMAが平均する最近のイテレーションの数として理解することができる。一定の学習率を与えられた場合、EMAタイムスケールから通常の重み減衰ハイパーパラメータへの1対1のマッピングがある。したがって、EMA の時間スケールを選択すると、暗黙的に重みが減衰する。重要なことは、EMAの時間スケールには自然なガイドラインがある: すべてのデータポイントを平均する必要があり、EMAの時間スケールは1エポック以下であるべきではなく、早期更新を忘れる必要があるため、EMAの時間スケールはトレーニングエポックの総数より大きくならない。実験では,近年の大規模LLMプレトレーニングラン(eg \ Llama 1+2 and Stable LM)で選択されたハイパーパラメータと同様に,最適EMAタイムスケールはこれらのガイドラインと一致していることがわかった。これらのガイドラインは、モデルとデータセットをスケールするため、最適なEMAタイムスケールは変更すべきでないことを示唆しています。つまり、データセットのサイズが大きくなると、最適な重量減衰が減少する。さらに、モデルのサイズが大きくなるにつれて、最適な重量減少も増加する(学習率を拡大する muP 勧告に従うと)。

関連論文リスト

Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。 SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。 SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文参考訳（メタデータ） (2024-11-03T23:36:53Z)
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。 2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文参考訳（メタデータ） (2024-07-16T17:59:42Z)
Weights Augmentation: it has never ever ever ever let her model down [1.5020330976600735]
本稿では,重量増大の概念を,重量探査に焦点をあてて提案する。ウェイト増強戦略(Weight Augmentation Strategy, WAS)とは、損失関数の計算に使用できるネットワークに対して、ランダムに変換されたウェイト係数のトレーニングと変換を行う手法である。我々の実験結果は、VGG-16、ResNet-18、ResNet-34、GoogleNet、MobilementV2、Efficientment-Liteといった畳み込みニューラルネットワークが、ほとんど、あるいは全くコストがかからないことを示しています。
論文参考訳（メタデータ） (2024-05-30T00:57:06Z)
A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか? スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文参考訳（メタデータ） (2024-02-10T21:06:34Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文参考訳（メタデータ） (2023-10-06T17:58:21Z)
How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文参考訳（メタデータ） (2023-07-25T20:33:48Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale [16.97880876259831]
Amosは、ディープニューラルネットワークをトレーニングするための勾配ベースのシステムである。理論的に支持され、適応的な学習速度の減衰と重みの崩壊を持つアダムと見なすことができる。
論文参考訳（メタデータ） (2022-10-21T02:37:58Z)
Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-27T03:26:31Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文参考訳（メタデータ） (2020-07-09T23:26:13Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
Anatomy-aware 3D Human Pose Estimation with Bone-based Pose Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文参考訳（メタデータ） (2020-02-24T15:49:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。