論文の概要: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs
- arxiv url: http://arxiv.org/abs/2508.16546v1
- Date: Fri, 22 Aug 2025 17:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.468396
- Title: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs
- Title(参考訳): RLはパナセアでも鏡でもない:LLMのための強化学習
- Authors: Hangzhan Jin, Sicheng Lv, Sifan Wu, Mohammad Hamdaqa,
- Abstract要約: 大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます非現実的になり、教師付き微調整のようなポストトレーニング手法が現代の実践の中心となっている。
24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
- 参考スコア(独自算出の注目度): 1.772462140285781
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Training large language models (LLMs) from scratch is increasingly impractical, making post-training methods such as supervised fine-tuning (SFT) and reinforcement-learning fine-tuning (RL-FT, e.g., PPO) central to modern practice. Using an out-of-distribution (OOD) variant of the 24-point card game and new spectrum-based diagnostics, we revisit how these two stages reshape model representation and OOD performance. Our key findings are- (1) RL-FT can restore much of the OOD performance loss from SFT (e.g., Llama-11B 8.97% to 15.38%, Qwen-7B 17.09% to 19.66%). But when SFT induces severe overfitting and a clear distribution shift, RL-FT cannot fully recover OOD performance. (2) Direction shifts of singular vectors matter more than singular value magnitudes. These shifts concentrate on directions linked to the largest and smallest singular values, leaving the bulk spectrum intact. (3) Low-rank and shallow recovery is effective: restoring singular vector directions for the top 20% of values or first 25% of layers recovers 70-80% of OOD performance. (4) Stronger SFT checkpoints enable better recovery by RL, while overfitted ones resist restoration. These results reconcile prior reports of RL superior OOD performance: RL primarily counteracts SFT-induced directional drift rather than finding new solutions. Our spectrum-aware analysis highlights inexpensive recovery knobs low-rank UV merging and shallow-layer resets that practitioners can use before costly RL fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます現実的ではなく、教師付き微調整(SFT)や強化学習微調整(RL-FT, e g , PPO)といったポストトレーニング手法が現代の実践の中心となっている。
24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
1) RL-FT は SFT (例えば Llama-11B 8.97% から 15.38%, Qwen-7B 17.09% から 19.66%) から OOD のパフォーマンス損失の多くを回復できる。
しかし、SFTが過度なオーバーフィッティングと明確な分布シフトを誘導すると、RL-FTはOOD性能を完全に回復することができない。
2)特異ベクトルの方向シフトは特異値等級以上である。
これらのシフトは、最大かつ最小の特異値に関連付けられた方向に集中し、バルクスペクトルはそのまま残される。
3) 低ランク・浅度回復は有効であり,上位20%の値または第125%の値に対する特異ベクトル方向の復元はOOD性能の70~80%を回復する。
(4)より強力なSFTチェックポイントにより、RLによる回復が向上し、過度に適合したチェックポイントは回復を抵抗する。
これらの結果は、RLが優れたOOD性能を示す以前の報告と一致している: RLは、新しい解を見つけるのではなく、主にSFTによって誘導される方向のドリフトに反する。
我々のスペクトル認識分析では、安価な回収ノブの低ランクUVマージと、実践者が高価なRL微調整の前に使用できる浅層リセットが強調されている。
関連論文リスト
- Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning [8.550698116833123]
推論LDMの訓練後は通常、オフラインのSFTステージとオンラインの強化学習ステージで構成される。
同一のRLトレーニングの後、より強力なSFTチェックポイントのモデルの方が、より弱いモデルよりもはるかに性能が低いことを示す。
本稿では、このミスマッチを補正し、RLのモデルを改善するSFT段法であるPEARを提案する。
論文 参考訳(メタデータ) (2026-02-01T06:53:45Z) - On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training [10.433802085981046]
強化学習(RL)を用いたSFT指導型大規模言語モデルの学習後学習
RLはSFT最適性の下でSFT損失を増大させ、SFTはRLが達成した報酬を低下させることを示す。
Qwen3-0.6Bの実験では予測された劣化が確認され、SFTとRLは訓練後の性能を失うことなく分離できないことが確認された。
論文 参考訳(メタデータ) (2026-01-12T10:14:09Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - When Imitation Learning Outperforms Reinforcement Learning in Surgical Action Planning [38.040478801450774]
今回,CholecT50の手術行動計画において,ILとRLの総合的な比較を行った。
DARILベースラインは、34.6%のアクショントリプレット認識mAPと33.6%の次フレーム予測mAPを達成し、10秒水平線で29.2%のスムーズな計画劣化を実現した。
分析の結果,有意なRLポリシーよりも,専門家アノテートされたテストセット上での分布マッチングがILを体系的に好んでいることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-07T13:49:57Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z) - Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning [4.967941028121525]
R1スタイル強化学習(RL)は、大規模言語モデルの推論能力を大幅に向上させる。
その結果,小型SFTはRLにかなりの影響を及ぼすが,効率は良くないことがわかった。
小規模蒸留の有効性を高める技術であるtextbfRe-distillation を提案する。
論文 参考訳(メタデータ) (2025-05-23T14:55:22Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。