論文の概要: Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training
- arxiv url: http://arxiv.org/abs/2505.13738v1
- Date: Mon, 19 May 2025 21:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.544141
- Title: Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training
- Title(参考訳): 電力線:LLM予修における軽量化とバッチサイズ拡大の法則
- Authors: Shane Bergsma, Nolan Dey, Gurpreet Gosal, Gavia Gray, Daria Soboleva, Joel Hestness,
- Abstract要約: モデルサイズN,データセットサイズD,バッチサイズBをスケールするHPのスケーリング法則について検討した。
N,Dスケールとして、最適時間スケールはトークン毎パラメータ比D/Nの正確なパワー則に従うことを示す。
以前の研究とは対照的に、Bpt と Bcrit のスケールは、モデルサイズ N とは独立に、D の力の法則として見なされる。
- 参考スコア(独自算出の注目度): 3.0287126536086517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient LLM pre-training requires well-tuned hyperparameters (HPs), including learning rate {\eta} and weight decay {\lambda}. We study scaling laws for HPs: formulas for how to scale HPs as we scale model size N, dataset size D, and batch size B. Recent work suggests the AdamW timescale, B/({\eta}{\lambda}D), should remain constant across training settings, and we verify the implication that optimal {\lambda} scales linearly with B, for a fixed N,D. However, as N,D scale, we show the optimal timescale obeys a precise power law in the tokens-per-parameter ratio, D/N. This law thus provides a method to accurately predict {\lambda}opt in advance of large-scale training. We also study scaling laws for optimal batch size Bopt (the B enabling lowest loss at a given N,D) and critical batch size Bcrit (the B beyond which further data parallelism becomes ineffective). In contrast with prior work, we find both Bopt and Bcrit scale as power laws in D, independent of model size, N. Finally, we analyze how these findings inform the real-world selection of Pareto-optimal N and D under dual training time and compute objectives.
- Abstract(参考訳): 効率的なLLM事前学習には、学習率 {\eta} やウェイト崩壊 {\lambda} を含むよく調整されたハイパーパラメータ(HP)が必要である。
最近の研究は、AdamWの時間スケールB/({\eta}{\lambda}D)がトレーニング設定全体にわたって一定であり続けることを示唆しており、固定されたN,Dに対して最適な {\lambda}がBと線形にスケールするという意味を検証している。
しかし、N,Dスケールの場合、最適時間スケールはトークン/パラメータ比D/Nの正確なパワー則に従う。
この法則は、大規模な訓練に先立って、正確に {\lambda}optを予測する方法を提供する。
また、最適なバッチサイズBpt(Bは与えられたN,Dで最小の損失を許容する)とクリティカルバッチサイズBcrit(Bはさらなるデータ並列性が低下する)のスケーリング法則についても検討する。
従来の研究とは対照的に,Bcrit と Bopt のスケールはモデルサイズに依存しない D のパワー法則である。
関連論文リスト
- The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Scaling Laws for Downstream Task Performance in Machine Translation [27.278023091494507]
BLEU や COMET などの指標を用いて,事前学習データの選択が下流のパフォーマンス(翻訳品質)に与える影響について検討した。
十分なアライメントで、下流のクロスエントロピーと翻訳品質スコアは、より事前訓練されたデータで単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - Scaling Laws for Forgetting When Fine-Tuning Large Language Models [0.7252027234425334]
ダウンストリームタスクにおいて,学習済みの大規模言語モデル(LLM)を微調整する場合の忘れる問題について検討し,定量化する。
パラメータ効率のよい細調整(PEFT)戦略であるLoRA(Lo-Rank Adapters)が,依然として破滅的な忘れ込みに悩まされていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T00:44:25Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。