論文の概要: BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
- arxiv url: http://arxiv.org/abs/2506.17211v1
- Date: Fri, 20 Jun 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.587877
- Title: BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
- Title(参考訳): BREAD:エキスパートアンカーブリッジSFT&RLからの分岐ロールアウト
- Authors: Xuechen Zhang, Zijian Huang, Yingcong Li, Chenshun Ni, Jiasi Chen, Samet Oymak,
- Abstract要約: 小さな言語モデル(SLM)は複雑な推論の振る舞いを学ぶのに苦労する。
標準的なトレーニングアプローチは、教師付き微調整(SFT)ステージと、強化学習(RL)ステージを組み合わせている。
BREAD: SFTとRLのステージを部分的に専門的なガイダンスと分岐ロールアウトで統一するGRPOの派生版を紹介する。
- 参考スコア(独自算出の注目度): 27.36980225142871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small language models (SLMs) struggle to learn complex reasoning behaviors, especially when high-quality traces are scarce or difficult to learn from. The standard training approach combines a supervised fine-tuning (SFT) stage, often to distill capabilities of a larger model, followed by a reinforcement learning (RL)stage such as Group Relative Policy Optimization (GRPO). In this paper, we investigate the fundamental limitations of this SFT + RL paradigm and propose methods to overcome them. Under a suitable theoretical model, we demonstrate that the SFT + RL strategy can fail completely when (1) the expert's traces are too difficult for the small model to express, or (2) the small model's initialization has exponentially small likelihood of success. To address these, we introduce BREAD: a GRPO variant that unifies the SFT and RL stages via partial expert guidance and branched rollouts. When self-generated traces fail, BREAD adaptively inserts short expert prefixes/hints, allowing the small model to complete the rest of the reasoning path, and ensuring that each update includes at least one successful trace. This mechanism both densifies the reward signal and induces a natural learning curriculum. BREAD requires fewer than 40% of ground-truth traces, consistently outperforming standard GRPO while speeding up the training by about 3 times. Importantly, we demonstrate that BREAD helps the model solve problems that are otherwise unsolvable by the SFT + RL strategy, highlighting how branched rollouts and expert guidance can substantially boost SLM reasoning.
- Abstract(参考訳): 小さな言語モデル(SLM)は、特に高品質なトレースが不足したり、そこから学ぶのが難しい場合に、複雑な推論の振る舞いを学ぶのに苦労する。
標準的な訓練手法は、監督された微調整(SFT)段階と、より大きなモデルの蒸留能力と、グループ相対政策最適化(GRPO)のような強化学習(RL)段階を組み合わせたものである。
本稿では,このSFT+RLパラダイムの基本的限界について検討し,その克服方法を提案する。
適切な理論モデルの下では、(1)専門家のトレースが小モデルの表現に難しすぎる場合、または(2)小モデルの初期化が指数関数的に成功の可能性が小さい場合に、SFT + RL戦略が完全に失敗することを示した。
これらの問題に対処するために、BREAD:SFTおよびRLステージを部分的専門家ガイダンスと分岐ロールアウトで統一するGRPO変種を紹介する。
自己生成トレースが失敗した場合、BREADは短い専門家のプレフィックス/ヒントを適応的に挿入し、小さなモデルで推論パスの残りを完了し、各更新が少なくとも1つの成功したトレースを含むことを保証する。
このメカニズムは報奨信号を強化し、自然学習カリキュラムを誘導する。
BREADは、通常のGRPOよりも40%以下で、トレーニングを約3倍スピードアップする。
重要なことは、BREADがSFT + RL戦略によって解決不可能な問題を解決するのに役立ち、分岐ロールアウトとエキスパートガイダンスがSLM推論を大幅に向上させることを示すことである。
関連論文リスト
- Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。