論文の概要: Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2509.06948v1
- Date: Mon, 08 Sep 2025 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.303311
- Title: Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning
- Title(参考訳): 2段階トレーニングを超えて:LLM推論のための協調SFTとRL
- Authors: Liang Chen, Xueting Han, Li Shen, Jing Bai, Kam-Fai Wong,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるのに有効であることが証明されているが、試行錯誤の性質による深刻な効率上の課題に悩まされている。
本研究では,これらの学習パラダイム間の協調性を向上するために,二段階最適化を用いた推論モデル学習手法を提案する。
- 参考スコア(独自算出の注目度): 36.06085913761571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has proven effective in incentivizing the reasoning abilities of large language models (LLMs), but suffers from severe efficiency challenges due to its trial-and-error nature. While the common practice employs supervised fine-tuning (SFT) as a warm-up stage for RL, this decoupled two-stage approach limits interaction between SFT and RL, thereby constraining overall effectiveness. This study introduces a novel method for learning reasoning models that employs bilevel optimization to facilitate better cooperation between these training paradigms. By conditioning the SFT objective on the optimal RL policy, our approach enables SFT to meta-learn how to guide RL's optimization process. During training, the lower level performs RL updates while simultaneously receiving SFT supervision, and the upper level explicitly maximizes the cooperative gain-the performance advantage of joint SFT-RL training over RL alone. Empirical evaluations on five reasoning benchmarks demonstrate that our method consistently outperforms baselines and achieves a better balance between effectiveness and efficiency.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるのに有効であることが証明されているが、試行錯誤の性質による深刻な効率上の課題に悩まされている。
一般的な手法では、教師付き微調整(SFT)をRLのウォームアップステージとして採用しているが、この分離された2段階のアプローチはSFTとRLの相互作用を制限し、全体的な効果を制限している。
本研究では,これらの学習パラダイム間の協調性を向上するために,二段階最適化を用いた推論モデル学習手法を提案する。
最適RLポリシーにSFTの目的を条件付けることにより、SFTはRLの最適化プロセスの導出方法をメタ学習することができる。
トレーニング中、下位レベルは、同時にSFT監督を受けながらRL更新を行い、上位レベルは、RL単独での共同SFT-RLトレーニングによる協調的なゲイン・ザ・パフォーマンス優位性を明示的に最大化する。
5つの推論ベンチマークの実証評価により,本手法はベースラインを一貫して上回り,有効性と効率のバランスが良くなることを示した。
関連論文リスト
- AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [5.748208737701793]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-02T19:46:41Z) - Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs [13.292104357930866]
SASRは、大規模言語モデルのためのステップワイド適応型ハイブリッドトレーニングフレームワークである。
SFTとRLを統一し、最適化全体を通して動的に2つのバランスをとる。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
論文 参考訳(メタデータ) (2025-05-19T12:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。