論文の概要: Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs
- arxiv url: http://arxiv.org/abs/2509.25380v1
- Date: Mon, 29 Sep 2025 18:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.271757
- Title: Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs
- Title(参考訳): LLMのための効果的なデータカリキュラムを可能にするトレーニング再評価曲線の予測
- Authors: Shane Bergsma, Nolan Dey, Joel Hestness,
- Abstract要約: トレーニング再評価曲線 (TREC)* を導入する。
TRECの低点に高品質なデータを置くと性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 10.408027323179903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data curriculums have become central to successful LLM training, yet principles governing optimal data placement remain unclear. We introduce the *training re-evaluation curve (TREC)*, a diagnostic that retrospectively evaluates training batches *using the final model weights*. The TREC characterizes how well a trained model retains training data as a function of *when* the data was encountered during training. Analyzing TRECs for models from 111M to 3.9B parameters, we show that placing high-quality data at low points on the TREC significantly improves performance. Importantly, while a TREC is initially observable only after training, we demonstrate it can be *predicted in advance* from AdamW's implicit EMA coefficients, enabling proactive curriculum design. By predicting TRECs for published training recipes, we explain prior ablations and reveal suboptimal data placements. We also align high-quality data with TREC minima in order to improve continual pre-training of a 3.9B-parameter LLM trained on 900B tokens.
- Abstract(参考訳): データカリキュラムはLLMトレーニングの成功の中心となっているが、最適なデータ配置を規定する原則はいまだ不明である。
トレーニング再評価曲線(TREC)*は,トレーニングバッチを遡及的に評価する診断法である。
TRECは、トレーニング中にデータに遭遇した*の関数として、トレーニングされたモデルがトレーニングデータをいかにうまく保持しているかを特徴付けている。
111Mから3.9Bパラメータのモデルに対するTRECの解析を行い、TRECの低点に高品質なデータを配置することで、性能が大幅に向上することを示した。
重要なことに、TRECはトレーニング後にのみ観測可能であるが、AdamW の暗黙の EMA 係数から *予測可能であり、プロアクティブなカリキュラム設計を可能にする。
トレーニングレシピのTRECを予測することにより、事前の短縮を説明し、最適なデータ配置を明らかにする。
また,900Bトークンでトレーニングした3.9BパラメータLLMの継続事前トレーニングを改善するため,TRECミニマと高品質なデータを調整した。
関連論文リスト
- LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。
モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。
我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-21T13:12:13Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T03:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。