論文の概要: Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead
- arxiv url: http://arxiv.org/abs/2510.01624v1
- Date: Thu, 02 Oct 2025 02:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.96474
- Title: Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead
- Title(参考訳): SFT-RLのポストトレーニングにおけるクアグミレス: 高SFTスコアのミスリードと代わりに何を使うか
- Authors: Feiyang Kang, Michael Kuchnik, Karthik Padthe, Marin Vlastelica, Ruoxi Jia, Carole-Jean Wu, Newsha Ardalani,
- Abstract要約: 我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
- 参考スコア(独自算出の注目度): 20.446287312285648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In post-training for reasoning Large Language Models (LLMs), the current state of practice trains LLMs in two independent stages: Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR, shortened as ``RL'' below). In this work, we challenge whether high SFT scores translate to improved performance after RL. We provide extensive counter-examples where this is not true. We find high SFT scores can be biased toward simpler or more homogeneous data and are not reliably predictive of subsequent RL gains or scaled-up post-training effectiveness. In some cases, RL training on models with improved SFT performance could lead to substantially worse outcome compared to RL on the base model without SFT. We study alternative metrics and identify generalization loss on held-out reasoning examples and Pass@large k performance to provide strong proxies for the RL outcome. We trained hundreds of models up to 12B-parameter with SFT and RLVR via GRPO and ran extensive evaluations on 7 math benchmarks with up to 256 repetitions, spending $>$1M GPU hours. Experiments include models from Llama3, Mistral-Nemo, Qwen3 and multiple state-of-the-art SFT/RL datasets. Compared to directly predicting from pre-RL performance, prediction based on generalization loss and Pass@large k achieves substantial higher precision, improving $R^2$ coefficient and Spearman's rank correlation coefficient by up to 0.5 (2x). This provides strong utility for broad use cases. For example, in most experiments, we find SFT training on unique examples for a one epoch underperforms training on half examples for two epochs, either after SFT or SFT-then-RL; With the same SFT budget, training only on short examples may lead to better SFT performance, though, it often leads to worse outcome after RL compared to training on examples with varying lengths. Evaluation tool will be open-sourced.
- Abstract(参考訳): LLM(Large Language Models)の推論後の訓練では、LLMを2つの独立した段階(Supervised Fine-Tuning (SFT)とReinforcement Learning with Verifiable Rewards (RLVR、以下「RL」と略す)で訓練している。
本研究では,高いSFTスコアがRL後の性能向上に寄与するかどうかを課題とする。
これは事実ではない広範な反例を提供する。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
SFT性能が向上したモデルでのRLトレーニングは、SFTのないベースモデルでのRLよりも大幅に悪化する可能性がある。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
GRPOを通じてSFTとRLVRを使用して、最大12Bパラメータまでのモデルをトレーニングし、7つの数学ベンチマークで256回まで繰り返し、GPU時間に$1M($1M)以上を費やした。
実験には、Llama3、Mistral-Nemo、Qwen3、複数の最先端SFT/RLデータセットのモデルが含まれる。
事前RL性能から直接予測した場合と比較して、一般化損失とPass@large kに基づく予測は、R^2$係数とSpearmanのランク相関係数を0.5(2x)まで改善し、かなり高い精度を達成する。
これは幅広いユースケースに強力なユーティリティを提供する。
例えば、ほとんどの実験において、SFTトレーニングは、SFTまたはSFT-then-RLのいずれかの2つのエポックの半例において、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングが2エポックのトレーニングにおいて、半エポックのトレーニングでは、同じ予算で、短いサンプルのみのトレーニングは、より優れたSFTのパフォーマンスをもたらすことがあるが、RLのトレーニングでは、様々な長さのトレーニングに比べて、より悪い結果をもたらすことが多い。
評価ツールはオープンソースになる。
関連論文リスト
- RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved) [3.13388270461847]
我々は、教師付き微調整(SFT)と強化学習(RL)による最適政策の発見理論と実践との関係を描いている。
SFTに小さな修正を加えることで、RLのトレーニングに近く行動する重み付き変異が重要となることを示す。
我々は、この変種を重み付けされた教師付き微調整(iw-SFT)として参照する。
論文 参考訳(メタデータ) (2025-07-17T07:26:54Z) - Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。
MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。
SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文 参考訳(メタデータ) (2025-07-13T19:04:17Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。