Fugu-MT 論文翻訳(概要): Learning What to Learn: Stage-Specific Data Sets for SFT-then-RL in Small Language Model Reasoning

論文の概要: Learning What to Learn: Stage-Specific Data Sets for SFT-then-RL in Small Language Model Reasoning

arxiv url: http://arxiv.org/abs/2606.04466v1
Date: Wed, 03 Jun 2026 05:25:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 07:07:40.452116
Title: Learning What to Learn: Stage-Specific Data Sets for SFT-then-RL in Small Language Model Reasoning
Title（参考訳）: 学習すべきこと:小言語モデル推論におけるSFT-then-RLのステージ特化データセット
Authors: Chongyang He, Rui Zhang, Zixuan Wang, Xin Li,
Abstract要約: 我々は、データ戦略はSFTとRLの異なる役割と一致すべきであると主張している。本稿では,学習データをステージ固有のセットに整理する,難易度の高いSFT-then-RLフレームワークを提案する。
参考スコア（独自算出の注目度）: 29.726247369977198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Post-training Small Language Models (SLMs) for reasoning typically follows an SFT-then-RL pipeline, yet existing work rarely considers what data should be learned at each stage. We argue that data strategy should be aligned with the distinct roles of SFT and RL: SFT is better suited for acquiring not-yet-mastered reasoning skills, while RL is better suited for consolidating skills that the model can already partially access. Based on this principle, we propose a difficulty-aware SFT-then-RL framework that organizes training data into stage-specific sets. For hard samples in the SFT stage, we introduce a Bridge mechanism that transforms raw teacher-generated reasoning traces into more learnable supervision for SLMs. For hard samples that remain unsolved during RL, we apply Critique Fine-Tuning by converting all-zero-reward failures into diagnostic, repair, and new reasoning trace supervision for the next SFT stage. Experiments on two SLMs across five reasoning benchmarks show that our method consistently improves over representative SFT, distillation, and RL baselines. Our results highlight the importance of coordinating data difficulty across SFT and RL for effective SLM reasoning post-training.
Abstract（参考訳）: 推論のための訓練後の小さな言語モデル(SLM)は一般的にSFT-then-RLパイプラインに従うが、既存の研究では各段階でどのようなデータを学ぶべきかをほとんど考慮していない。データ戦略は、SFTとRLの異なる役割と一致すべきである: SFTは、未熟な推論スキルの獲得に適しており、RLは、既に部分的にアクセス可能なスキルの統合に適している。この原理に基づいて、トレーニングデータをステージ固有のセットに整理する難易度対応のSFT-then-RLフレームワークを提案する。 SFT段階のハードサンプルに対しては、生の教師が生成した推論トレースをSLMのより学習可能な監視に変換するブリッジ機構を導入する。 RL中未解決のハードサンプルに対しては、全ゼロリワード障害を診断、修復、および次のSFT段階の新たな推論トレース監視に変換することにより、Cristique Fine-Tuningを適用した。提案手法は, 代表的なSFT, 蒸留, RLベースラインよりも連続的に改善されている。本研究は,SFT と RL にまたがるデータ難易度調整の重要性を強調した。

関連論文リスト

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training [18.932290080075685]
RLは非常に早期に有効であることが分かっており、SFT$to$RLパイプラインと早期にマッチすることが多い。ベースチェックポイントに直接RLを適用すると、モデルの分布が拡大する。モデル全体の能力は基本的にRLによって変わらず、SFTの後に劣化する。
論文参考訳（メタデータ） (2026-06-02T22:55:18Z)
Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models [52.11240605311707]
改良された微調整と強化学習は、大規模言語モデルの訓練後の標準パラダイムとなっている。 EKSFT(Entropy-KL Selective Fine-Tuning)は,参照モデルから高いエントロピーまたは高いKLの発散を示すトークンを選択的にマスクする。数学的推論ベンチマークに関する実証的な評価は、EKSFTが標準SFTを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2026-05-28T03:36:05Z)
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning [8.550698116833123]
推論LDMの訓練後は通常、オフラインのSFTステージとオンラインの強化学習ステージで構成される。同一のRLトレーニングの後、より強力なSFTチェックポイントのモデルの方が、より弱いモデルよりもはるかに性能が低いことを示す。本稿では、このミスマッチを補正し、RLのモデルを改善するSFT段法であるPEARを提案する。
論文参考訳（メタデータ） (2026-02-01T06:53:45Z)
Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。 5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-19T14:37:07Z)
Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。 2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。より高い報酬は、RLの推論精度と相関しない。
論文参考訳（メタデータ） (2025-12-14T13:46:42Z)
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文参考訳（メタデータ） (2025-10-29T22:05:08Z)
Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。 SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-06T03:01:14Z)
Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文参考訳（メタデータ） (2025-10-02T02:57:00Z)
The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。 SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文参考訳（メタデータ） (2025-07-10T09:05:49Z)
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。スケーリング戦略は推理性能に顕著な改善をもたらします我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文参考訳（メタデータ） (2025-06-16T09:27:48Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。