論文の概要: RL Fine-Tuning Heals OOD Forgetting in SFT
- arxiv url: http://arxiv.org/abs/2509.12235v1
- Date: Mon, 08 Sep 2025 21:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.631433
- Title: RL Fine-Tuning Heals OOD Forgetting in SFT
- Title(参考訳): RLファインチューニング医療 : SFTにおけるOOD治療
- Authors: Hangzhan Jin, Sitao Luan, Sicheng Lyu, Guillaume Rabusseau, Reihaneh Rabbany, Doina Precup, Mohammad Hamdaqa,
- Abstract要約: スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
- 参考スコア(独自算出の注目度): 35.01074051556079
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The two-stage fine-tuning paradigm of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has empirically shown better reasoning performance than one-stage SFT for the post-training of Large Language Models (LLMs). However, the evolution and mechanism behind the synergy of SFT and RL are still under-explored and inconclusive. In our study, we find the well-known claim "SFT memorizes, RL generalizes" is over-simplified, and discover that: (1) OOD performance peaks at the early stage of SFT and then declines (OOD forgetting), the best SFT checkpoint cannot be captured by training/test loss; (2) the subsequent RL stage does not generate fundamentally better OOD capability, instead it plays an \textbf{OOD restoration} role, recovering the lost reasoning ability during SFT; (3) The recovery ability has boundaries, \ie{} \textbf{if SFT trains for too short or too long, RL cannot recover the lost OOD ability;} (4) To uncover the underlying mechanisms behind the forgetting and restoration process, we employ SVD analysis on parameter matrices, manually edit them, and observe their impacts on model performance. Unlike the common belief that the shift of model capacity mainly results from the changes of singular values, we find that they are actually quite stable throughout fine-tuning. Instead, the OOD behavior strongly correlates with the \textbf{rotation of singular vectors}. Our findings re-identify the roles of SFT and RL in the two-stage fine-tuning and discover the rotation of singular vectors as the key mechanism. %reversing the rotations induced by SFT, which shows recovery from forgetting, whereas imposing the SFT parameter directions onto a RL-tuned model results in performance degradation. Code is available at https://github.com/xiaodanguoguo/RL_Heals_SFT
- Abstract(参考訳): Supervised Fine-Tuning(SFT)とReinforcement Learning(RL)の2段階の微調整パラダイムは、大規模言語モデル(LLM)の後のトレーニングにおいて、一段階のSFTよりも優れた推論性能を実証的に示している。
しかし、SFTとRLの相乗効果の背後にある進化と機構はいまだ未解明であり、決定的ではない。
本研究では,(1) SFTの初期段階でOOD性能がピークに達して(OODを忘れる),最高のSFTチェックポイントがトレーニング/テストの損失によって捕捉できないこと,(2) その後のRLステージでは,基本的に優れたOOD能力が得られないこと,(2) SFTにおける損失推論能力の回復,(3) SFTにおける損失推論能力の回復,(3) RLの回復能力の限界,(3) RLの短さ,あるいは短さ, 短さ, 短さ, 短さ, 短さのSFT列車の回復, (3) RLが失効するOOD能力の回復, (3) RLが失効するメカニズムの解明, SVDの回復プロセスの裏側にあるメカニズムの解明, SVDのパラメータ解析, を手作業で実施すること, これらのモデルに手作業による影響を観察する。
モデルキャパシティのシフトは、主に特異値の変化によって生じるという一般的な信念とは異なり、それらはファインチューニングを通して実際にかなり安定である。
代わりに、OOD の挙動は特異ベクトルの \textbf{rotation} と強く相関する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
%の回転がSFTによって引き起こされ,SFTパラメータの方向をRLで調整したモデルに印加すると性能が低下する。
コードはhttps://github.com/xiaodanguoguo/RL_Heals_SFTで公開されている。
関連論文リスト
- RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs [1.772462140285781]
大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます非現実的になり、教師付き微調整のようなポストトレーニング手法が現代の実践の中心となっている。
24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
論文 参考訳(メタデータ) (2025-08-22T17:10:37Z) - Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。
MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。
SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文 参考訳(メタデータ) (2025-07-13T19:04:17Z) - Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。