論文の概要: Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.11149v1
- Date: Wed, 11 Feb 2026 18:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.351003
- Title: Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
- Title(参考訳): 長期CoT監視ファインチューニングにおけるデータ反復がデータスケーリングに勝る
- Authors: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano,
- Abstract要約: オルモ3-7Bは400サンプルの128エポックで訓練され、51200サンプルの1エポックを12-26ポイント上回った。
トレーニングトークンの精度は、繰り返しが飽和した時に確実にシグナルとなる。
- 参考スコア(独自算出の注目度): 43.11305591635628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.
- Abstract(参考訳): チェーン・オブ・シント・データに基づく教師付き微調整(SFT)は、推論言語モデルにとって、学習後の重要なステップである。
標準的な機械学習の直観は、よりユニークなトレーニングサンプルによるトレーニングがより良い一般化をもたらすことを示唆している。
固定された更新予算の下で、より小さなデータセットでのエポックなトレーニングは、より大きなデータセットでのシングルエポックなトレーニングよりも優れています。
AIME'24/25 と GPQA のベンチマークでは、Olmo3-7B は400サンプルで128エポックのトレーニングを行い、51200サンプルで同等の1エポックを12-26ポイント上回った。
トレーニングトークンの精度は、繰り返しが飽和した時に確実にシグナルとなり、すべての設定で一貫したパターンである完全記憶時のエポック高原の改善が期待できる。
これらの結果は、トークンの正確さによるスケーリングエポックを停止基準とすることで、高価な非ダイレクトデータスケーリングを置き換える、SFTの推論に実用的なアプローチを提供する。
我々は,大言語モデルの学習力学を理解する上で,コミュニティにとって新たなオープンな問題として,全記憶化と一般化の改善が同時に行われる反復的優位性を示す。
関連論文リスト
- Scaling Data-Constrained Language Models [133.2083255645999]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。