論文の概要: How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining
- arxiv url: http://arxiv.org/abs/2511.18903v1
- Date: Mon, 24 Nov 2025 09:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.123608
- Title: How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining
- Title(参考訳): 学習率の低下は、カリキュラムベースのLLMプレトレーニングであなたの最高のデータを無駄にする
- Authors: Kairong Luo, Zhenbo Sun, Haodong Wen, Xinyu Shi, Jiarui Cui, Chenyi Dang, Kaifeng Lyu, Wenguang Chen,
- Abstract要約: 高品質なデータを活用するための自然なアプローチはカリキュラムベースの事前トレーニングであり、品質基準によって決定された品質の上位順にソートされたデータに基づいてモデルを訓練する。
この研究は、これらの手法を制約する重要な要因、すなわち、上昇するデータ品質の順序と減衰する学習率のスケジュールの不整合性を特定する。
- 参考スコア(独自算出の注目度): 22.50461083222824
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the scarcity of high-quality data, large language models (LLMs) are often trained on mixtures of data with varying quality levels, even after sophisticated data curation. A natural approach to better leverage high-quality data is curriculum-based pretraining, where the model is trained on data sorted in ascending order of quality as determined by a quality metric. However, prior studies have reported limited improvements from such curriculum-based pretraining strategies. This work identifies a critical factor constraining these methods: the incompatibility between the ascending data quality order and the decaying learning rate (LR) schedule. We find that while curriculum-based training substantially outperforms random shuffling when using a constant LR, its advantage diminishes under standard LR decay schedules. Our experiments show this incompatibility can be mitigated by two simple strategies: (1) employing a more moderate LR decay schedule, where the final LR is only moderately smaller than the peak LR, and (2) replacing LR decay with model averaging, i.e., computing a weighted average of the final few checkpoints. By combining these strategies, we improve the average score on a suite of standard benchmarks by 1.64% over random shuffling, without additional data refinement. Validated on 1.5B-parameter models trained over 30B tokens with various data-quality metrics, our findings call for a re-evaluation of curriculum-based LLM pretraining and underscore the potential of co-designing data curricula with optimization methods.
- Abstract(参考訳): 高品質なデータが少ないため、大規模な言語モデル(LLM)は、洗練されたデータキュレーションの後にも、様々な品質レベルのデータで訓練されることが多い。
高品質なデータを活用するための自然なアプローチはカリキュラムベースの事前トレーニングであり、品質基準によって決定された品質の上位順にソートされたデータに基づいてモデルを訓練する。
しかし、これまでの研究では、このようなカリキュラムベースの事前学習戦略から、限られた改善が報告されている。
本研究は,これらの手法を制約する重要な要因として,上昇するデータ品質順序と減衰する学習率(LR)スケジュールの不整合性を挙げる。
カリキュラムベースのトレーニングは、一定のLRを使用する場合、ランダムシャッフルよりも大幅に優れるが、通常のLR崩壊スケジュールではその優位性は低下する。
この不整合性は,(1)最終LRがピークLRよりも適度に小さいような,より穏健なLR崩壊スケジュールを採用すること,(2)モデル平均化によりLR崩壊を置き換えること,すなわち最終チェックポイントの重み付き平均を計算すること,の2つの単純な戦略によって緩和できることを示す。
これらの戦略を組み合わせることで、データ改善を伴わずに、ランダムシャッフルよりも1.64%向上する。
1.5Bパラメータモデルを用いて,各種データ品質指標を用いた30Bトークンのトレーニングを行った結果,カリキュラムベースのLCM事前トレーニングが再評価され,最適化手法によるデータキュリキュラの共設計の可能性が示された。
関連論文リスト
- Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Ranking & Reweighting Improves Group Distributional Robustness [14.021069321266516]
本研究では,DRU(Discounted Rank Upweighting)と呼ばれるランキングベースのトレーニング手法を提案し,テストデータ上で強力なOOD性能を示すモデルを学習する。
いくつかの合成および実世界のデータセットの結果は、群分布シフトに頑健なモデルの選択と学習において、グループレベルの(ソフトミニマックスと異なり)アプローチの優れた能力を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-09T20:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。