論文の概要: DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning
- arxiv url: http://arxiv.org/abs/2603.11193v1
- Date: Wed, 11 Mar 2026 18:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.566339
- Title: DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning
- Title(参考訳): DeReason: 一般的な推論のための非結合SFT-then-RLトレーニングを改善する難易度対応カリキュラム
- Authors: Hanxu Hu, Yuxuan Wang, Maggie Huan, Jannis Vamvas, Yinya Huang, Zhijiang Guo, Rico Sennrich,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルで推論能力を引き出すための強力なパラダイムとして登場した。
一般的なSTEM領域では、ベースモデルに直接適用されるRLは、非常にサンプリング非効率であり、教師付き微調整によって一貫して上回っている。
本稿では,一般的な推論のための難易度に基づくデータデカップリング戦略であるDeReasonを提案する。
- 参考スコア(独自算出の注目度): 44.10628322188708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with Verifiable Rewards (RLVR) has emerged as a powerful paradigm for eliciting reasoning capabilities in large language models, particularly in mathematics and coding. While recent efforts have extended this paradigm to broader general scientific (STEM) domains, the complex interplay between supervised fine-tuning (SFT) and RL in these contexts remains underexplored. In this paper, we conduct controlled experiments revealing a critical challenge: for general STEM domains, RL applied directly to base models is highly sample-inefficient and is consistently surpassed by supervised fine-tuning (SFT) on moderate-quality responses. Yet sequential SFT followed by RL can further improve performance, suggesting that the two stages play complementary roles, and that how training data is allocated between them matters. Therefore, we propose DeReason, a difficulty-based data decoupling strategy for general reasoning. DeReason partitions training data by reasoning intensity estimated via LLM-based scoring into reasoning-intensive and non-reasoning-intensive subsets. It allocates broad-coverage, non-reasoning-intensive problems to SFT to establish foundational domain knowledge, and reserves a focused subset of difficult problems for RL to cultivate complex reasoning. We demonstrate that this principled decoupling yields better performance than randomly splitting the data for sequential SFT and RL. Extensive experiments on general STEM and mathematical benchmarks demonstrate that our decoupled curriculum training significantly outperforms SFT-only, RL-only, and random-split baselines. Our work provides a systematic study of the interplay between SFT and RL for general reasoning, offering a highly effective and generalized post-training recipe.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、特に数学やコーディングにおいて、大規模言語モデルにおいて推論能力を引き出すための強力なパラダイムとして登場した。
近年の取り組みでは、このパラダイムをより広範な一般科学(STEM)領域に拡張しているが、これらの文脈における教師付き微調整(SFT)とRLとの複雑な相互作用は未解明のままである。
一般的なSTEMドメインでは、ベースモデルに直接適用されるRLは、サンプル非効率であり、中等度応答に関する教師付き微調整(SFT)によって一貫して上回っている。
しかし、シーケンシャルなSFTとRLが続くと、さらにパフォーマンスが向上し、2つのステージが相補的な役割を担い、それらの間のトレーニングデータがどのように割り当てられるかが重要となる。
そこで本稿では,一般的な推論のための難易度に基づくデータデカップリング戦略であるDeReasonを提案する。
DeReasonは、LSMベースのスコアリングによって推定される強度を推論集約サブセットと非推論集約サブセットに分割することで、トレーニングデータを分割する。
基礎的なドメイン知識を確立するためにSFTに広い範囲の非推論集約的な問題を割り当て、複雑な推論を育むためにRLが難しい問題に焦点を絞ったサブセットを予約する。
本研究では,このデカップリングの原理により,逐次SFTとRLのデータをランダムに分割するよりも優れた性能が得られることを示す。
一般的なSTEMと数式ベンチマークの広範な実験により、分離されたカリキュラムのトレーニングは、SFTのみ、RLのみ、ランダムスプリットベースラインを著しく上回ることを示した。
本研究は,SFTとRLの相互作用を総合的推論のために体系的に研究し,高度に効果的で一般化された後学習レシピを提供する。
関連論文リスト
- Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
論文 参考訳(メタデータ) (2025-12-14T13:46:42Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。
SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。
本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-06T03:01:14Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。