論文の概要: Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging
- arxiv url: http://arxiv.org/abs/2602.03702v1
- Date: Tue, 03 Feb 2026 16:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.571864
- Title: Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging
- Title(参考訳): 任意の事前トレーニング:平均化による水平自由学習率スケジューリング
- Authors: Alexandru Meterez, Pranav Ajit Nair, Depen Morwani, Cengiz Pehlevan, Sham Kakade,
- Abstract要約: 本研究では, 1-32xChinchillaスケールで学習した言語モデルが時間とともに減衰し, 問題の発生源とキャパシティ条件によって減衰速度が決定されることを示した。
以上の結果から,重み付き平均化と地平線なしのステップサイズを組み合わせることで,大規模言語モデルの事前学習におけるコサイン学習率のスケジュールに代わる実用的で効果的な選択肢が得られることが示唆された。
- 参考スコア(独自算出の注目度): 70.05077723711618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly trained in continual or open-ended settings, where the total training horizon is not known in advance. Despite this, most existing pretraining recipes are not anytime: they rely on horizon-dependent learning rate schedules and extensive tuning under a fixed compute budget. In this work, we provide a theoretical analysis demonstrating the existence of anytime learning schedules for overparameterized linear regression, and we highlight the central role of weight averaging - also known as model merging - in achieving the minimax convergence rates of stochastic gradient descent. We show that these anytime schedules polynomially decay with time, with the decay rate determined by the source and capacity conditions of the problem. Empirically, we evaluate 150M and 300M parameter language models trained at 1-32x Chinchilla scale, comparing constant learning rates with weight averaging and $1/\sqrt{t}$ schedules with weight averaging against a well-tuned cosine schedule. Across the full training range, the anytime schedules achieve comparable final loss to cosine decay. Taken together, our results suggest that weight averaging combined with simple, horizon-free step sizes offers a practical and effective anytime alternative to cosine learning rate schedules for large language model pretraining.
- Abstract(参考訳): 大規模言語モデルは、トレーニングの全体像が事前に分かっていない連続的またはオープンな設定で、ますます訓練されている。
それにもかかわらず、既存の事前学習のレシピは、常にそうではない。それらは水平方向に依存した学習率のスケジュールと、固定された計算予算の下で広範囲なチューニングに依存している。
本研究では,過パラメータ化線形回帰の学習スケジュールの存在を理論的に示すとともに,確率勾配勾配の最小収束率を達成する上での平均化(モデルマージング)の中心的役割を強調した。
これらの時空スケジュールは時間とともに多項式的に減衰し、問題の原点とキャパシティ条件によって減衰速度が決定されることを示す。
1-32xChinchillaスケールで学習した150Mと3Mのパラメータ言語モデルを評価し,平均的学習率と1/\sqrt{t}$スケジュールを比較した。
トレーニング範囲全体にわたって、任意のスケジュールはコサイン崩壊に匹敵する最終損失を達成する。
その結果,重み付き平均化と地平線なしのステップサイズを組み合わせることで,大規模言語モデルの事前学習において,コサイン学習率のスケジュールに代わる実用的かつ効果的な方法が得られたことが示唆された。
関連論文リスト
- Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling [75.36692892951018]
トレーニング中のバッチサイズの増加は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
この研究はバッチサイズスケジューリングのための原則化されたフレームワークを開発する。
標準スケジューラが学習率を半減するたびに、Seesawは1/sqrt2$と倍増し、バッチサイズを倍増します。
論文 参考訳(メタデータ) (2025-10-16T14:17:38Z) - A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文 参考訳(メタデータ) (2025-03-17T04:36:45Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。