論文の概要: Straight to Zero: Why Linearly Decaying the Learning Rate to Zero Works Best for LLMs
- arxiv url: http://arxiv.org/abs/2502.15938v1
- Date: Fri, 21 Feb 2025 21:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:29.611842
- Title: Straight to Zero: Why Linearly Decaying the Learning Rate to Zero Works Best for LLMs
- Title(参考訳): ゼロへの進路:LLMにとって学習率のゼロ化が最善である理由
- Authors: Shane Bergsma, Nolan Dey, Gurpreet Gosal, Gavia Gray, Daria Soboleva, Joel Hestness,
- Abstract要約: 計算-最適データセットサイズでのトレーニングにおいて、単純な線形減衰-ゼロ(D2Z)スケジュールが、他のスケジュールよりも一貫して優れていることを示す。
D2Zは、さまざまなモデルサイズ、バッチサイズ、データセット、語彙に優れています。
- 参考スコア(独自算出の注目度): 3.0287126536086517
- License:
- Abstract: LLMs are commonly trained with a learning rate (LR) warmup, followed by cosine decay to 10% of the maximum (10x decay). In a large-scale empirical study, we show that under an optimal peak LR, a simple linear decay-to-zero (D2Z) schedule consistently outperforms other schedules when training at compute-optimal dataset sizes. D2Z is superior across a range of model sizes, batch sizes, datasets, and vocabularies. Benefits increase as dataset size increases. Leveraging a novel interpretation of AdamW as an exponential moving average of weight updates, we show how linear D2Z optimally balances the demands of early training (moving away from initial conditions) and late training (averaging over more updates in order to mitigate gradient noise). In experiments, a 610M-parameter model trained for 80 tokens-per-parameter (TPP) using D2Z achieves lower loss than when trained for 200 TPP using 10x decay, corresponding to an astonishing 60% compute savings. Models such as Llama2-7B, trained for 286 TPP with 10x decay, could likely have saved a majority of compute by training with D2Z.
- Abstract(参考訳): LLMは通常、学習率(LR)ウォームアップで訓練され、次いでコサイン崩壊は最大(10倍)の10%に低下する。
大規模な実証研究において、最適ピークLRの下では、単純な線形減衰-ゼロ(D2Z)スケジュールは、計算-最適データセットサイズでのトレーニングにおいて、他のスケジュールよりも一貫して優れていることを示す。
D2Zは、さまざまなモデルサイズ、バッチサイズ、データセット、語彙に優れています。
データセットのサイズが大きくなると利益が増加する。
我々は,AdamWの新たな解釈を指数移動平均として活用し,線形D2Zが早期訓練(初期条件から外れた)と遅発訓練(勾配雑音を軽減するためにより多くの更新を行う)の要求を最適にバランスさせることを示す。
実験では、D2Zを用いた80トークン/パラメータ(TPP)でトレーニングされた610Mパラメータモデルが、10倍の減衰を用いた200 TPPでトレーニングされた場合よりも低損失を達成する。
Llama2-7Bのような10倍の減衰を持つ286 TPPで訓練されたモデルは、D2Zでトレーニングすることで計算の大部分を節約できた可能性がある。
関連論文リスト
- Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。
モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。
我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-21T13:12:13Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - CowClip: Reducing CTR Prediction Model Training Time from 12 hours to 10
minutes on 1 GPU [14.764217935910988]
クリックスルーレート(CTR)予測タスクは、ユーザーが推奨項目をクリックするかどうかを予測することである。
トレーニング速度を上げるためのアプローチのひとつは、大規模なバッチトレーニングを適用することだ。
適応型カラムワイドクリッピング(CowClip)を開発し,大規模なバッチサイズ設定でトレーニングプロセスを安定化させる。
論文 参考訳(メタデータ) (2022-04-13T08:17:15Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z) - Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting
the Tree [2.0142516017086165]
プレトレーニングは、パフォーマンスを高め、トレーニング時間を短縮するためのディープラーニングの一般的なテクニックである。
大規模かつ公開可能なデータセットとケースバイケース生成データセットを用いて,RLタスクの事前学習の有効性を評価した。
その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。
論文 参考訳(メタデータ) (2021-10-06T04:25:14Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。