論文の概要: Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
- arxiv url: http://arxiv.org/abs/2510.03264v1
- Date: Fri, 26 Sep 2025 20:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.819494
- Title: Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
- Title(参考訳): フロントローディング推論:事前学習と後学習データの相乗効果
- Authors: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro,
- Abstract要約: LLMの推論能力を高めるための主流パラダイムは、高品質な推論集約的なデータによるポストトレーニングを中心に展開される。
新興文献では、学習中期にも推論データが組み込まれていることが示唆されているが、事前学習におけるそうしたデータの役割はいまだ不明である。
我々は,学習の異なる段階に導入した場合のLLM性能に,スケール,多様性,品質がどのような影響を及ぼすかについて,最初の系統的研究を行った。
- 参考スコア(独自算出の注目度): 68.85234898614571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.
- Abstract(参考訳): LLMの推論能力を高めるための主流パラダイムは、高品質な推論集約的なデータによるポストトレーニングを中心に展開される。
新興文献では、推論データが中級教育の段階にも組み込まれていることが示唆されているが、これは比較的プロプライエタリで、公然と特徴付けられていないプラクティスであり、事前訓練におけるそうしたデータの役割は未だ不明である。
特に、ほとんどのフロンティアモデルにおける事前学習コーパスの不透明さのため、事前および/または後訓練の異なるフェーズで導入された推論データの影響は、科学文献において比較的少ない。
事前トレーニング中に推論データを追加することは、ポストトレーニング中に導入するよりも優れているのでしょうか?
より初期の包括的包括的リスクは、一般化の過度な適合と害をもたらすのか、それとも、後の微調整では回復できない耐久性のある基盤を確立するのか?
本研究は,学習の異なる段階に導入したLLMの性能に,スケール,多様性,品質がどのような影響を及ぼすかについて,最初の系統的研究を行った。
プレトレーニングに事前ロードする推論データは非常に重要であり(19%のavgゲイン)、後段SFTで完全に複製できない基礎的能力を確立する。
事前学習は推論パターンの幅広い多様性(11%のavgゲイン)から最も恩恵を受ける一方、SFTはデータ品質(15%のavgゲイン)に敏感である。
我々は,SFT後にのみ活性化される高品質事前学習データが潜伏効果を有しており,SFTデータの経時的スケーリングは有害であり,早期推論の利点を損なう可能性があることを示した。
我々の結果は、従来の言語モデリングと推論の分離に挑戦し、より有能なモデルを構築するために、トレーニングパイプライン全体にわたって戦略的にデータを割り当てるための原則的なガイドを提供する。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。