論文の概要: RL Fine-Tuning Heals OOD Forgetting in SFT
- arxiv url: http://arxiv.org/abs/2509.12235v2
- Date: Sat, 01 Nov 2025 13:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.236863
- Title: RL Fine-Tuning Heals OOD Forgetting in SFT
- Title(参考訳): RLファインチューニング医療 : SFTにおけるOOD治療
- Authors: Hangzhan Jin, Sitao Luan, Sicheng Lyu, Guillaume Rabusseau, Reihaneh Rabbany, Doina Precup, Mohammad Hamdaqa,
- Abstract要約: スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
- 参考スコア(独自算出の注目度): 35.01074051556079
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The two-stage fine-tuning paradigm of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has empirically shown better reasoning performance than one-stage SFT for the post-training of Large Language Models (LLMs). However, the evolution and mechanism behind the synergy of SFT and RL are still under-explored and inconclusive. In our study, we find the well-known claim "SFT memorizes, RL generalizes" is over-simplified, and discover that: (1) OOD performance peaks at the early stage of SFT and then declines (OOD forgetting), the best SFT checkpoint cannot be captured by training/test loss; (2) the subsequent RL stage does not generate fundamentally better OOD capability, instead it plays an \textbf{OOD restoration} role, recovering the lost reasoning ability during SFT; (3) The recovery ability has boundaries, \ie{} \textbf{if SFT trains for too short or too long, RL cannot recover the lost OOD ability;} (4) To uncover the underlying mechanisms behind the forgetting and restoration process, we employ SVD analysis on parameter matrices, manually edit them, and observe their impacts on model performance. Unlike the common belief that the shift of model capacity mainly results from the changes of singular values, we find that they are actually quite stable throughout fine-tuning. Instead, the OOD behavior strongly correlates with the \textbf{rotation of singular vectors}. Our findings re-identify the roles of SFT and RL in the two-stage fine-tuning and discover the rotation of singular vectors as the key mechanism. %reversing the rotations induced by SFT, which shows recovery from forgetting, whereas imposing the SFT parameter directions onto a RL-tuned model results in performance degradation. Code is available at https://github.com/xiaodanguoguo/RL_Heals_SFT
- Abstract(参考訳): Supervised Fine-Tuning(SFT)とReinforcement Learning(RL)の2段階の微調整パラダイムは、大規模言語モデル(LLM)の後のトレーニングにおいて、一段階のSFTよりも優れた推論性能を実証的に示している。
しかし、SFTとRLの相乗効果の背後にある進化と機構はいまだ未解明であり、決定的ではない。
本研究では,(1) SFTの初期段階でOOD性能がピークに達して(OODを忘れる),最高のSFTチェックポイントがトレーニング/テストの損失によって捕捉できないこと,(2) その後のRLステージでは,基本的に優れたOOD能力が得られないこと,(2) SFTにおける損失推論能力の回復,(3) SFTにおける損失推論能力の回復,(3) RLの回復能力の限界,(3) RLの短さ,あるいは短さ, 短さ, 短さ, 短さ, 短さのSFT列車の回復, (3) RLが失効するOOD能力の回復, (3) RLが失効するメカニズムの解明, SVDの回復プロセスの裏側にあるメカニズムの解明, SVDのパラメータ解析, を手作業で実施すること, これらのモデルに手作業による影響を観察する。
モデルキャパシティのシフトは、主に特異値の変化によって生じるという一般的な信念とは異なり、それらはファインチューニングを通して実際にかなり安定である。
代わりに、OOD の挙動は特異ベクトルの \textbf{rotation} と強く相関する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
%の回転がSFTによって引き起こされ,SFTパラメータの方向をRLで調整したモデルに印加すると性能が低下する。
コードはhttps://github.com/xiaodanguoguo/RL_Heals_SFTで公開されている。
関連論文リスト
- On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training [10.433802085981046]
強化学習(RL)を用いたSFT指導型大規模言語モデルの学習後学習
RLはSFT最適性の下でSFT損失を増大させ、SFTはRLが達成した報酬を低下させることを示す。
Qwen3-0.6Bの実験では予測された劣化が確認され、SFTとRLは訓練後の性能を失うことなく分離できないことが確認された。
論文 参考訳(メタデータ) (2026-01-12T10:14:09Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
論文 参考訳(メタデータ) (2025-12-14T13:46:42Z) - Rethinking Expert Trajectory Utilization in LLM Post-training [35.018182540417236]
我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。
逐次SFT-then-RLパイプラインを優れた標準として確立する。
本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-12T11:13:00Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs [1.772462140285781]
大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます非現実的になり、教師付き微調整のようなポストトレーニング手法が現代の実践の中心となっている。
24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
論文 参考訳(メタデータ) (2025-08-22T17:10:37Z) - Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。
MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。
SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文 参考訳(メタデータ) (2025-07-13T19:04:17Z) - Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。