Fugu-MT 論文翻訳(概要): RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs

論文の概要: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs

arxiv url: http://arxiv.org/abs/2508.16546v1
Date: Fri, 22 Aug 2025 17:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-25 16:42:36.468396
Title: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs
Title（参考訳）: RLはパナセアでも鏡でもない:LLMのための強化学習
Authors: Hangzhan Jin, Sicheng Lv, Sifan Wu, Mohammad Hamdaqa,
Abstract要約: 大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます非現実的になり、教師付き微調整のようなポストトレーニング手法が現代の実践の中心となっている。 24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。
参考スコア（独自算出の注目度）: 1.772462140285781
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Training large language models (LLMs) from scratch is increasingly impractical, making post-training methods such as supervised fine-tuning (SFT) and reinforcement-learning fine-tuning (RL-FT, e.g., PPO) central to modern practice. Using an out-of-distribution (OOD) variant of the 24-point card game and new spectrum-based diagnostics, we revisit how these two stages reshape model representation and OOD performance. Our key findings are- (1) RL-FT can restore much of the OOD performance loss from SFT (e.g., Llama-11B 8.97% to 15.38%, Qwen-7B 17.09% to 19.66%). But when SFT induces severe overfitting and a clear distribution shift, RL-FT cannot fully recover OOD performance. (2) Direction shifts of singular vectors matter more than singular value magnitudes. These shifts concentrate on directions linked to the largest and smallest singular values, leaving the bulk spectrum intact. (3) Low-rank and shallow recovery is effective: restoring singular vector directions for the top 20% of values or first 25% of layers recovers 70-80% of OOD performance. (4) Stronger SFT checkpoints enable better recovery by RL, while overfitted ones resist restoration. These results reconcile prior reports of RL superior OOD performance: RL primarily counteracts SFT-induced directional drift rather than finding new solutions. Our spectrum-aware analysis highlights inexpensive recovery knobs low-rank UV merging and shallow-layer resets that practitioners can use before costly RL fine-tuning.
Abstract（参考訳）: 大規模言語モデル(LLM)をスクラッチからトレーニングすることはますます現実的ではなく、教師付き微調整(SFT)や強化学習微調整(RL-FT, e g , PPO)といったポストトレーニング手法が現代の実践の中心となっている。 24ポイントカードゲームのアウト・オブ・ディストリビューション(OOD)と新しいスペクトルベースの診断技術を用いて、これらの2つのステージのモデル表現とOODパフォーマンスを再考する。 1) RL-FT は SFT (例えば Llama-11B 8.97% から 15.38%, Qwen-7B 17.09% から 19.66%) から OOD のパフォーマンス損失の多くを回復できる。しかし、SFTが過度なオーバーフィッティングと明確な分布シフトを誘導すると、RL-FTはOOD性能を完全に回復することができない。 2)特異ベクトルの方向シフトは特異値等級以上である。これらのシフトは、最大かつ最小の特異値に関連付けられた方向に集中し、バルクスペクトルはそのまま残される。 3) 低ランク・浅度回復は有効であり,上位20%の値または第125%の値に対する特異ベクトル方向の復元はOOD性能の70～80%を回復する。 (4)より強力なSFTチェックポイントにより、RLによる回復が向上し、過度に適合したチェックポイントは回復を抵抗する。これらの結果は、RLが優れたOOD性能を示す以前の報告と一致している: RLは、新しい解を見つけるのではなく、主にSFTによって誘導される方向のドリフトに反する。我々のスペクトル認識分析では、安価な回収ノブの低ランクUVマージと、実践者が高価なRL微調整の前に使用できる浅層リセットが強調されている。

論文の概要: RL Is Neither a Panacea Nor a Mirage: Understanding Supervised vs. Reinforcement Learning Fine-Tuning for LLMs

関連論文リスト