論文の概要: Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead
- arxiv url: http://arxiv.org/abs/2510.01624v1
- Date: Thu, 02 Oct 2025 02:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.96474
- Title: Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead
- Title(参考訳): SFT-RLのポストトレーニングにおけるクアグミレス: 高SFTスコアのミスリードと代わりに何を使うか
- Authors: Feiyang Kang, Michael Kuchnik, Karthik Padthe, Marin Vlastelica, Ruoxi Jia, Carole-Jean Wu, Newsha Ardalani,
- Abstract要約: 我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
- 参考スコア(独自算出の注目度): 20.446287312285648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In post-training for reasoning Large Language Models (LLMs), the current state of practice trains LLMs in two independent stages: Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR, shortened as ``RL'' below). In this work, we challenge whether high SFT scores translate to improved performance after RL. We provide extensive counter-examples where this is not true. We find high SFT scores can be biased toward simpler or more homogeneous data and are not reliably predictive of subsequent RL gains or scaled-up post-training effectiveness. In some cases, RL training on models with improved SFT performance could lead to substantially worse outcome compared to RL on the base model without SFT. We study alternative metrics and identify generalization loss on held-out reasoning examples and Pass@large k performance to provide strong proxies for the RL outcome. We trained hundreds of models up to 12B-parameter with SFT and RLVR via GRPO and ran extensive evaluations on 7 math benchmarks with up to 256 repetitions, spending $>$1M GPU hours. Experiments include models from Llama3, Mistral-Nemo, Qwen3 and multiple state-of-the-art SFT/RL datasets. Compared to directly predicting from pre-RL performance, prediction based on generalization loss and Pass@large k achieves substantial higher precision, improving $R^2$ coefficient and Spearman's rank correlation coefficient by up to 0.5 (2x). This provides strong utility for broad use cases. For example, in most experiments, we find SFT training on unique examples for a one epoch underperforms training on half examples for two epochs, either after SFT or SFT-then-RL; With the same SFT budget, training only on short examples may lead to better SFT performance, though, it often leads to worse outcome after RL compared to training on examples with varying lengths. Evaluation tool will be open-sourced.
- Abstract(参考訳): LLM(Large Language Models)の推論後の訓練では、LLMを2つの独立した段階(Supervised Fine-Tuning (SFT)とReinforcement Learning with Verifiable Rewards (RLVR、以下「RL」と略す)で訓練している。
本研究では,高いSFTスコアがRL後の性能向上に寄与するかどうかを課題とする。
これは事実ではない広範な反例を提供する。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
SFT性能が向上したモデルでのRLトレーニングは、SFTのないベースモデルでのRLよりも大幅に悪化する可能性がある。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
GRPOを通じてSFTとRLVRを使用して、最大12Bパラメータまでのモデルをトレーニングし、7つの数学ベンチマークで256回まで繰り返し、GPU時間に$1M($1M)以上を費やした。
実験には、Llama3、Mistral-Nemo、Qwen3、複数の最先端SFT/RLデータセットのモデルが含まれる。
事前RL性能から直接予測した場合と比較して、一般化損失とPass@large kに基づく予測は、R^2$係数とSpearmanのランク相関係数を0.5(2x)まで改善し、かなり高い精度を達成する。
これは幅広いユースケースに強力なユーティリティを提供する。
例えば、ほとんどの実験において、SFTトレーニングは、SFTまたはSFT-then-RLのいずれかの2つのエポックの半例において、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングにおいて、一エポックのトレーニングが2エポックのトレーニングにおいて、半エポックのトレーニングでは、同じ予算で、短いサンプルのみのトレーニングは、より優れたSFTのパフォーマンスをもたらすことがあるが、RLのトレーニングでは、様々な長さのトレーニングに比べて、より悪い結果をもたらすことが多い。
評価ツールはオープンソースになる。
関連論文リスト
- Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models [56.12341509545198]
大規模言語モデル(LLM)は、大量のデータセット上で事前訓練され、後に教師付き微調整(SFT)または強化学習(RL)を介して指導訓練される。
ベストプラクティスは大規模で多様な事前訓練データを強調するが、ポストトレーニングは異なる。
線形回帰のための文脈内重み予測タスクで訓練された変圧器を理論的に解析する。
論文 参考訳(メタデータ) (2026-03-01T21:58:09Z) - Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning [8.550698116833123]
推論LDMの訓練後は通常、オフラインのSFTステージとオンラインの強化学習ステージで構成される。
同一のRLトレーニングの後、より強力なSFTチェックポイントのモデルの方が、より弱いモデルよりもはるかに性能が低いことを示す。
本稿では、このミスマッチを補正し、RLのモデルを改善するSFT段法であるPEARを提案する。
論文 参考訳(メタデータ) (2026-02-01T06:53:45Z) - On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training [10.433802085981046]
強化学習(RL)を用いたSFT指導型大規模言語モデルの学習後学習
RLはSFT最適性の下でSFT損失を増大させ、SFTはRLが達成した報酬を低下させることを示す。
Qwen3-0.6Bの実験では予測された劣化が確認され、SFTとRLは訓練後の性能を失うことなく分離できないことが確認された。
論文 参考訳(メタデータ) (2026-01-12T10:14:09Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
論文 参考訳(メタデータ) (2025-12-14T13:46:42Z) - RLSR: Reinforcement Learning with Supervised Reward Outperforms SFT in Instruction Following [4.6740998081727385]
本稿では,SFT を RLSR に置き換えて,RL フレームワークにおける拡張 SFT データセットを活用することを提案する。
RLSRでは、ベースモデルは各プロンプトに対して複数の応答を生成し、生成した応答と人ラベルされた応答のセマンティック埋め込み空間におけるコサイン類似性として報酬スコアを算出する。
論文 参考訳(メタデータ) (2025-10-16T01:13:14Z) - RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved) [3.13388270461847]
我々は、教師付き微調整(SFT)と強化学習(RL)による最適政策の発見理論と実践との関係を描いている。
SFTに小さな修正を加えることで、RLのトレーニングに近く行動する重み付き変異が重要となることを示す。
我々は、この変種を重み付けされた教師付き微調整(iw-SFT)として参照する。
論文 参考訳(メタデータ) (2025-07-17T07:26:54Z) - Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。
MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。
SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文 参考訳(メタデータ) (2025-07-13T19:04:17Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。