論文の概要: Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.16127v1
- Date: Tue, 17 Mar 2026 05:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.106346
- Title: Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning
- Title(参考訳): 微調整による学習速度低下を伴わない事前学習LLM
- Authors: Kazuki Yano, Shun Kiyono, Sosuke Kobayashi, Sho Takase, Jun Suzuki,
- Abstract要約: 大規模言語モデルの大規模事前学習における学習率スケジューリングの役割について検討する。
Warmup-Stable-Only (WSO) は温暖化後に一定の学習率を維持している。
- 参考スコア(独自算出の注目度): 17.543161067319023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the role of learning rate scheduling in the large-scale pre-training of large language models, focusing on its influence on downstream performance after supervised fine-tuning (SFT). Decay-based learning rate schedulers are widely used to minimize pre-training loss. However, despite their widespread use, how these schedulers affect performance after SFT remains underexplored. In this paper, we examine Warmup-Stable-Only (WSO), which maintains a constant learning rate after warmup without any decay. Through experiments with 1B and 8B parameter models, we show that WSO consistently outperforms decay-based schedulers in terms of performance after SFT, even though decay-based schedulers may exhibit better performance after pre-training. The result also holds across different regimes with mid-training and over-training. Loss landscape analysis further reveals that decay-based schedulers lead models into sharper minima, whereas WSO preserves flatter minima that support adaptability. These findings indicate that applying LR decay to improve pre-training metrics may compromise downstream adaptability. Our work also provides practical guidance for training and model release strategies, highlighting that pre-training models with WSO enhances their adaptability for downstream tasks.
- Abstract(参考訳): 本研究では,大規模言語モデルの大規模事前学習における学習率スケジューリングの役割について検討し,教師付き微調整(SFT)後の下流性能への影響に着目した。
遅延ベースの学習率スケジューラは、トレーニング前の損失を最小限にするために広く使用されている。
しかし、これらのスケジューラが広く使われているにもかかわらず、SFTの後にパフォーマンスにどのように影響するかはまだ未定である。
本稿では,ウォームアップ後の学習率を一定に維持するウォームアップ・安定オンリー(WSO)について検討する。
1B と 8B のパラメータモデルを用いた実験により,分解型スケジューラの事前訓練後の性能は向上するが,WSO は SFT 以降のパフォーマンスにおいて常に減衰型スケジューラよりも優れることを示した。
結果は、中等教育と過度の訓練を含む様々な制度にも及んでいる。
ロスランドスケープ分析により、崩壊ベースのスケジューラがモデルをよりシャープなミニマに導くのに対して、WSOは適応性をサポートするフラットなミニマを保存していることが明らかになった。
これらの結果から, LR崩壊によるトレーニング前測定値の改善が下流適応性を損なう可能性が示唆された。
当社の作業は、トレーニングやモデルリリース戦略の実践的なガイダンスも提供しており、WSOによる事前トレーニングモデルが下流タスクへの適応性を高めている点を強調しています。
関連論文リスト
- Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文 参考訳(メタデータ) (2025-03-17T04:36:45Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。