論文の概要: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs
- arxiv url: http://arxiv.org/abs/2508.16546v1
- Date: Fri, 22 Aug 2025 17:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.468396
- Title: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs
- Title(参考訳): RLはパナセアでも鏡でもない:LLMのための強化学習
- Authors: Hangzhan Jin, Sicheng Lv, Sifan Wu, Mohammad Hamdaqa,
- Abstract要約: 大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます非現実的になり、教師付き微調整のようなポストトレーニング手法が現代の実践の中心となっている。
24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
- 参考スコア(独自算出の注目度): 1.772462140285781
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Training large language models (LLMs) from scratch is increasingly impractical, making post-training methods such as supervised fine-tuning (SFT) and reinforcement-learning fine-tuning (RL-FT, e.g., PPO) central to modern practice. Using an out-of-distribution (OOD) variant of the 24-point card game and new spectrum-based diagnostics, we revisit how these two stages reshape model representation and OOD performance. Our key findings are- (1) RL-FT can restore much of the OOD performance loss from SFT (e.g., Llama-11B 8.97% to 15.38%, Qwen-7B 17.09% to 19.66%). But when SFT induces severe overfitting and a clear distribution shift, RL-FT cannot fully recover OOD performance. (2) Direction shifts of singular vectors matter more than singular value magnitudes. These shifts concentrate on directions linked to the largest and smallest singular values, leaving the bulk spectrum intact. (3) Low-rank and shallow recovery is effective: restoring singular vector directions for the top 20% of values or first 25% of layers recovers 70-80% of OOD performance. (4) Stronger SFT checkpoints enable better recovery by RL, while overfitted ones resist restoration. These results reconcile prior reports of RL superior OOD performance: RL primarily counteracts SFT-induced directional drift rather than finding new solutions. Our spectrum-aware analysis highlights inexpensive recovery knobs low-rank UV merging and shallow-layer resets that practitioners can use before costly RL fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます現実的ではなく、教師付き微調整(SFT)や強化学習微調整(RL-FT, e g , PPO)といったポストトレーニング手法が現代の実践の中心となっている。
24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
1) RL-FT は SFT (例えば Llama-11B 8.97% から 15.38%, Qwen-7B 17.09% から 19.66%) から OOD のパフォーマンス損失の多くを回復できる。
しかし、SFTが過度なオーバーフィッティングと明確な分布シフトを誘導すると、RL-FTはOOD性能を完全に回復することができない。
2)特異ベクトルの方向シフトは特異値等級以上である。
これらのシフトは、最大かつ最小の特異値に関連付けられた方向に集中し、バルクスペクトルはそのまま残される。
3) 低ランク・浅度回復は有効であり,上位20%の値または第125%の値に対する特異ベクトル方向の復元はOOD性能の70~80%を回復する。
(4)より強力なSFTチェックポイントにより、RLによる回復が向上し、過度に適合したチェックポイントは回復を抵抗する。
これらの結果は、RLが優れたOOD性能を示す以前の報告と一致している: RLは、新しい解を見つけるのではなく、主にSFTによって誘導される方向のドリフトに反する。
我々のスペクトル認識分析では、安価な回収ノブの低ランクUVマージと、実践者が高価なRL微調整の前に使用できる浅層リセットが強調されている。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - When Imitation Learning Outperforms Reinforcement Learning in Surgical Action Planning [38.040478801450774]
今回,CholecT50の手術行動計画において,ILとRLの総合的な比較を行った。
DARILベースラインは、34.6%のアクショントリプレット認識mAPと33.6%の次フレーム予測mAPを達成し、10秒水平線で29.2%のスムーズな計画劣化を実現した。
分析の結果,有意なRLポリシーよりも,専門家アノテートされたテストセット上での分布マッチングがILを体系的に好んでいることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-07T13:49:57Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z) - Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning [4.967941028121525]
R1スタイル強化学習(RL)は、大規模言語モデルの推論能力を大幅に向上させる。
その結果,小型SFTはRLにかなりの影響を及ぼすが,効率は良くないことがわかった。
小規模蒸留の有効性を高める技術であるtextbfRe-distillation を提案する。
論文 参考訳(メタデータ) (2025-05-23T14:55:22Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。