論文の概要: Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.11149v1
- Date: Wed, 11 Feb 2026 18:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.351003
- Title: Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
- Title(参考訳): 長期CoT監視ファインチューニングにおけるデータ反復がデータスケーリングに勝る
- Authors: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano,
- Abstract要約: オルモ3-7Bは400サンプルの128エポックで訓練され、51200サンプルの1エポックを12-26ポイント上回った。
トレーニングトークンの精度は、繰り返しが飽和した時に確実にシグナルとなる。
- 参考スコア(独自算出の注目度): 43.11305591635628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.
- Abstract(参考訳): チェーン・オブ・シント・データに基づく教師付き微調整(SFT)は、推論言語モデルにとって、学習後の重要なステップである。
標準的な機械学習の直観は、よりユニークなトレーニングサンプルによるトレーニングがより良い一般化をもたらすことを示唆している。
固定された更新予算の下で、より小さなデータセットでのエポックなトレーニングは、より大きなデータセットでのシングルエポックなトレーニングよりも優れています。
AIME'24/25 と GPQA のベンチマークでは、Olmo3-7B は400サンプルで128エポックのトレーニングを行い、51200サンプルで同等の1エポックを12-26ポイント上回った。
トレーニングトークンの精度は、繰り返しが飽和した時に確実にシグナルとなり、すべての設定で一貫したパターンである完全記憶時のエポック高原の改善が期待できる。
これらの結果は、トークンの正確さによるスケーリングエポックを停止基準とすることで、高価な非ダイレクトデータスケーリングを置き換える、SFTの推論に実用的なアプローチを提供する。
我々は,大言語モデルの学習力学を理解する上で,コミュニティにとって新たなオープンな問題として,全記憶化と一般化の改善が同時に行われる反復的優位性を示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification
Tasks [0.0]
大きな言語モデルを微調整することは、NLUアプリケーションのコストを膨らませる。
コンピュータビジョンにおける最近の研究は、トレーニング時間を短縮するためにデータプルーニングを使用している。
微調整中に重要でない例を定期的に採点・廃棄するカリキュラムを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:30:41Z) - Scaling Data-Constrained Language Models [133.2083255645999]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。