論文の概要: On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training
- arxiv url: http://arxiv.org/abs/2601.07389v1
- Date: Mon, 12 Jan 2026 10:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.332549
- Title: On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training
- Title(参考訳): ポストトレーニングにおける教師付きファインチューニングと強化学習の非分離について
- Authors: Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang,
- Abstract要約: 強化学習(RL)を用いたSFT指導型大規模言語モデルの学習後学習
RLはSFT最適性の下でSFT損失を増大させ、SFTはRLが達成した報酬を低下させることを示す。
Qwen3-0.6Bの実験では予測された劣化が確認され、SFTとRLは訓練後の性能を失うことなく分離できないことが確認された。
- 参考スコア(独自算出の注目度): 10.433802085981046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-training of large language models routinely interleaves supervised fine-tuning (SFT) with reinforcement learning (RL). These two methods have different objectives: SFT minimizes the cross-entropy loss between model outputs and expert responses, while RL maximizes reward signals derived from human preferences or rule-based verifiers. Modern reasoning models have widely adopted the practice of alternating SFT and RL training. However, there is no theoretical account of whether they can be decoupled. We prove that decoupling is impossible in either order: (1) SFT-then-RL coupling: RL increases SFT loss under SFT optimality and (2) RL-then-SFT coupling: SFT lowers the reward achieved by RL. Experiments on Qwen3-0.6B confirm the predicted degradation, verifying that SFT and RL cannot be separated without loss of prior performance in the post-training
- Abstract(参考訳): 大規模言語モデルのポストトレーニングは、強化学習(RL)による教師付き微調整(SFT)を日常的にインターリーブする。
SFTはモデル出力とエキスパート応答の相互エントロピー損失を最小化し、RLは人間の好みやルールベースの検証から得られる報酬信号を最大化する。
現代の推論モデルは、SFTとRLのトレーニングを交互に行うプラクティスを広く採用している。
しかし、それらが分離できるかどうかについては理論的には説明されていない。
1) SFT-then-RL結合: RLはSFT最適性の下でSFT損失を増加させ、(2) RL-then-SFT結合: SFTはRLによって達成された報酬を下げる。
Qwen3-0.6Bの実験で予測された劣化が確認され、SFTとRLは訓練後の先行性能を失うことなく分離できないことが確認された。
関連論文リスト
- Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。
SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。
本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-06T03:01:14Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning [36.06085913761571]
本研究では,二段階最適化を用いた推論モデル学習手法を提案する。
最適RLポリシーにSFTの目的を条件付けることにより、SFTはRLの最適化プロセスの導出方法をメタ学習することができる。
論文 参考訳(メタデータ) (2025-09-08T17:58:02Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。