論文の概要: Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them
- arxiv url: http://arxiv.org/abs/2507.10616v1
- Date: Sun, 13 Jul 2025 19:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.782522
- Title: Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them
- Title(参考訳): Scalpel vs. Hammer: GRPOは既存の能力を増幅し、SFTはテーマを置き換える
- Authors: Neel Rajani, Aryo Pradipta Gema, Seraphina Goldfarb-Tarrant, Ivan Titov,
- Abstract要約: 一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。
MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。
SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
- 参考スコア(独自算出の注目度): 25.324955028065887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training large language models (LLMs) for reasoning via maths and code datasets has become a major new focus in LLM post-training. Two particularly popular approaches are reinforcement learning (RL) and supervised fine-tuning (SFT), but their training dynamics are poorly understood. We present a comparative analysis of RL and SFT on the same maths problems with the same model and similar hyperparameters. We find that RL yields minor in-domain gains on maths and slight degradation on knowledge-intensive benchmarks like MMLU, while both trends are more pronounced in SFT. We also analyse model parameters across checkpoints, observing that both algorithms modify query and key weights the most. Meanwhile, SFT exhibits greater updates and also affects mid-layer MLPs more, leading us to hypothesise that this may have caused the out-of-domain degradation. We therefore investigate whether freezing parts of the model during training can mitigate the reduced performance on knowledge-intensive benchmarks. However, our results are inconclusive, with benefits on GPQA:Diamond and degradation on other benchmarks. Taken together, our observations provide a preliminary indication for why RL amplifies existing capabilities, while SFT replaces old skills with new ones.
- Abstract(参考訳): 数学とコードデータセットによる推論のための大規模言語モデル(LLM)のトレーニングは、LLMのポストトレーニングにおいて大きな焦点となっている。
特に人気のあるアプローチは強化学習(RL)と教師付き微調整(SFT)である。
我々は,同じモデルと類似のハイパーパラメータを持つ同じ数学問題に対して,RLとSFTの比較解析を行った。
MMLUのような知識集約型ベンチマークでは,RLのドメイン内ゲインがわずかに低下するのに対して,SFTではどちらの傾向も顕著である。
また、チェックポイント間でモデルパラメータを分析し、両方のアルゴリズムがクエリとキーの重みを変更しているのを観察します。
一方、SFTはより大きく更新され、また中層MLPにも影響を及ぼすため、ドメイン外劣化を引き起こした可能性があると推測される。
そこで本研究では,学習中のモデルの凍結が,知識集約型ベンチマークの性能低下を軽減できるかどうかを考察する。
しかし、GPQA:Diamondの利点や他のベンチマークの劣化など、我々の結果は決定的ではない。
SFTは従来のスキルを新しいスキルに置き換えるが、我々の観察は、RLが既存の能力を増幅する理由を予備的な指標として示している。
関連論文リスト
- Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning [46.22610560773869]
幅広いタスクからなる20以上のオープンウェイト推論チューニングモデルを評価した。
数学で成功するほとんどのモデルは、利得を他の領域に移すことができない。
以上の結果から,標準のポストトレーニングレシピを再考する必要性が示唆された。
論文 参考訳(メタデータ) (2025-07-01T05:23:05Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。