論文の概要: The Impact of Post-training on Data Contamination
- arxiv url: http://arxiv.org/abs/2601.06103v1
- Date: Sat, 03 Jan 2026 00:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.571566
- Title: The Impact of Post-training on Data Contamination
- Title(参考訳): ポストトレーニングがデータ汚染に及ぼす影響
- Authors: Muhammed Yusuf Kocyigit, Caglar Yildirim,
- Abstract要約: 汚染は、継続した事前トレーニングによって徐々に減少するパフォーマンススパイクを引き起こす。
SFTとGRPOはどちらも漏洩した情報を再浮上させたが、外部の妥当性は異なっていた。
RLベースのポストトレーニングは、免疫性はないが、汚染に関連する過度な推定問題を緩和するのに役立つ。
- 参考スコア(独自算出の注目度): 5.868569999949525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a controlled study of how dataset contamination interacts with the post-training stages now standard in large language model training pipelines. Starting from clean checkpoints of Qwen2.5 (0.5B/1.5B) and Gemma3 (1B/4B), we inject five copies of GSM8K and MBPP test items into the first 2B tokens of an otherwise 25B token extended pre-training dataset. We then compare the contaminated and clean models both immediately after pre-training and again after two popular post-training methods: supervised fine-tuning (SFT) and reinforcement learning (RL) with group relative policy optimization (GRPO). The applied post-training steps do not have any contamination. Across math and coding benchmarks, we find three consistent patterns: (i) Contamination causes performance spikes that are gradually diminished with continued pre-training. After even 25B tokens the apparent performance inflation of contamination can become close to zero. (ii) Both SFT and GRPO resurface the leaked information, but with different external validity: SFT inflates scores only on the contaminated tasks, whereas GRPO also inflates performance on uncontaminated counterparts (GSMPlus, HumanEval). (iii) Model scale amplifies these tendencies, larger Supervised Fine Tuned models memorize more, while larger GRPO models translate leakage into more generalizable capabilities. Our results underscore the need for contamination audits \emph{after} post-training and suggest that RL-based post-training, although not immune, can help alleviate contamination-related over-estimation problems.
- Abstract(参考訳): 本研究では,大規模言語モデル学習パイプラインにおいて,データセットの汚染が学習後の段階とどのように相互作用するかを制御した研究を行う。
Qwen2.5 (0.5B/1.5B)とGemma3 (1B/4B)のクリーンチェックポイントから始め、GSM8KとMBPPテスト項目の5つのコピーを25Bトークン拡張事前トレーニングデータセットの最初の2Bトークンに注入する。
次に,教師付き微調整(SFT)と強化学習(RL)とグループ相対政策最適化(GRPO)の2つの一般的なポストトレーニング手法の直後に,汚染モデルとクリーンモデルを比較した。
適用後の訓練ステップには汚染がない。
数学とコーディングのベンチマークで、3つの一貫したパターンを見つけました。
(i)汚染は、継続した事前訓練によって徐々に減少するパフォーマンススパイクを引き起こす。
25Bトークンであっても、汚染の明らかなパフォーマンスインフレーションはゼロに近いものとなる。
(II) SFTとGRPOは、漏洩した情報を再浮上するが、外部の妥当性が異なる: SFTは汚染されたタスクのみにスコアを膨らませる一方、GRPOは汚染されていないタスク(GSMPlus, HumanEval)にパフォーマンスを膨らませる。
(3)モデルスケールはこれらの傾向を増幅し、より大型のSupervised Fine Tunedモデルはより記憶し、大きなGRPOモデルはリークをより一般化可能な機能に変換する。
以上の結果から, RLをベースとしたポストトレーニングは, 免疫性ではないが, 汚染関連過大評価問題を緩和できる可能性が示唆された。
関連論文リスト
- On The Fragility of Benchmark Contamination Detection in Reasoning Models [20.455365567122985]
LRMのリーダーボードは、評価を競合に転換し、開発者がベンチマークスイート上で直接最適化するインセンティブを与えている。
より高いランキングを達成するためのショートカットは、評価ベンチマークをトレーニングデータに組み込むことで、ベンチマーク汚染と呼ばれる膨らませたパフォーマンスを得る。
LRMに対する汚染検出の回避は極めて容易であることが判明した。
論文 参考訳(メタデータ) (2025-09-30T21:40:54Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Rethinking the effects of data contamination in Code Intelligence [15.99780798470139]
本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。
本研究は,汚染が必然的に性能過大評価につながるという従来の信念に異議を唱えるものである。
論文 参考訳(メタデータ) (2025-06-03T12:15:44Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。