論文の概要: A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules
- arxiv url: http://arxiv.org/abs/2503.12811v1
- Date: Mon, 17 Mar 2025 04:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:01:03.783384
- Title: A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules
- Title(参考訳): 学習速度スケジューリングにおける損失曲線予測の多元法則
- Authors: Kairong Luo, Haodong Wen, Shengding Hu, Zhenbo Sun, Zhiyuan Liu, Maosong Sun, Kaifeng Lyu, Wenguang Chen,
- Abstract要約: 本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
- 参考スコア(独自算出の注目度): 67.87680482844884
- License:
- Abstract: Training large models is both resource-intensive and time-consuming, making it crucial to understand the quantitative relationship between model performance and hyperparameters. In this paper, we present an empirical law that describes how the pretraining loss of large language models evolves under different learning rate schedules, such as constant, cosine, and step decay schedules. Our proposed law takes a multi-power form, combining a power law based on the sum of learning rates and additional power laws to account for a loss reduction effect induced by learning rate decay. We extensively validate this law on various model sizes and architectures, and demonstrate that after fitting on a few learning rate schedules, the law accurately predicts the loss curves for unseen schedules of different shapes and horizons. Moreover, by minimizing the predicted final pretraining loss across learning rate schedules, we are able to find a schedule that outperforms the widely used cosine learning rate schedule. Interestingly, this automatically discovered schedule bears some resemblance to the recently proposed Warmup-Stable-Decay (WSD) schedule (Hu et al, 2024) but achieves a slightly lower final loss. We believe these results could offer valuable insights for understanding the dynamics of pretraining and designing learning rate schedules to improve efficiency.
- Abstract(参考訳): 大規模モデルのトレーニングは、リソース集約的かつ時間を要するため、モデルパフォーマンスとハイパーパラメータの間の定量的な関係を理解することが不可欠である。
本稿では,大規模言語モデルの事前学習損失が,定数,コサイン,ステップ崩壊スケジュールなど,学習速度の異なるスケジュール下でどのように進行するかを示す経験則を示す。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
我々は,この法則を様々なモデルサイズとアーキテクチャに対して広範囲に検証し,いくつかの学習率スケジュールに適合した後,異なる形状や地平線の未確認スケジュールに対する損失曲線を正確に予測することを示した。
さらに,学習速度スケジュール全体で予測される最終事前学習損失を最小化することにより,広く使用されているコサイン学習率スケジュールよりも優れたスケジュールを見つけることができる。
興味深いことに、この自動的に発見されたスケジュールは、最近提案されたWarmup-Stable-Decay(WSD)スケジュール(Hu et al, 2024)に似ているが、最終的な損失はわずかに小さい。
これらの結果は、事前学習のダイナミクスを理解し、学習率のスケジュールを設計し、効率を向上する上で、貴重な洞察を与える可能性があると信じています。
関連論文リスト
- The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training [55.233765889424035]
本研究では,大規模モデル学習における学習速度のスケジュールが,非滑らかな最適化理論に縛られた凸と驚くほど類似していることを示す。
最適学習率で継続トレーニングのスケジュールを延長し、かつ、最適学習率をスケジュール間で転送することにより、124Mと210MのLlama型モデルをトレーニングするための顕著な改善を実現した。
論文 参考訳(メタデータ) (2025-01-31T08:55:56Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Learning Rate Schedules in the Presence of Distribution Shift [18.310336156637774]
我々は、変化するデータ分布の存在下で、後悔するネットワークが累積的に学習する学習スケジュールを設計する。
我々は, 高次元回帰モデルを用いて, 後悔モデルを増加させる実験を行った。
論文 参考訳(メタデータ) (2023-03-27T23:29:02Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。