論文の概要: RLSR: Reinforcement Learning with Supervised Reward Outperforms SFT in Instruction Following
- arxiv url: http://arxiv.org/abs/2510.14200v1
- Date: Thu, 16 Oct 2025 01:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.666355
- Title: RLSR: Reinforcement Learning with Supervised Reward Outperforms SFT in Instruction Following
- Title(参考訳): RLSR: Reward Outperforms SFT を改良した強化学習
- Authors: Zhichao Wang, Andy Wong, Ruslan Belkin,
- Abstract要約: 本稿では,SFT を RLSR に置き換えて,RL フレームワークにおける拡張 SFT データセットを活用することを提案する。
RLSRでは、ベースモデルは各プロンプトに対して複数の応答を生成し、生成した応答と人ラベルされた応答のセマンティック埋め込み空間におけるコサイン類似性として報酬スコアを算出する。
- 参考スコア(独自算出の注目度): 4.6740998081727385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After the pretraining stage of LLMs, techniques such as SFT, RLHF, RLVR, and RFT are applied to enhance instruction-following ability, mitigate undesired responses, improve reasoning capability and enable efficient domain adaptation with minimal data. SFT relies on the next-token prediction objective to strengthen instruction following in a base model using a large corpus of human-labeled responses. In contrast, RFT employs a RL-based approach to adapt fine-tuned reasoning models to specific domains with limited supervision. Inspired by RFT, we propose replacing SFT with RLSR to leverage the extensive SFT dataset in an RL framework, thereby improving the base model's instruction-following ability. In RLSR, the base model generates multiple responses for each prompt, and reward scores are computed as the cosine similarity in the semantic embedding space between the generated and human-labeled responses. RLSR can be utilized in multiple ways. It can directly replace SFT, achieving superior performance on instruction-following benchmarks-for example, RLSR (SB) on Qwen-7B (INFINITY) achieved an AlpacaEval win rate of 26.34%, surpassing SFT's 21.01%. Furthermore, combining SFT and RLSR further enhances downstream task performance; Qwen-7B (INFINITY) achieved a win rate of 30.73% when trained with SFT + RLSR.
- Abstract(参考訳): LLMの事前訓練段階の後、SFT、RLHF、RLVR、RFTといった技術が適用され、命令追従能力を高め、望ましくない応答を緩和し、推論能力を改善し、最小限のデータで効率的なドメイン適応を可能にする。
SFTは、人間のラベル付き応答の大きなコーパスを用いて、ベースモデルにおける指示に従うことを強化するために、次の目標の予測を頼りにしている。
対照的に、RFTはRLベースのアプローチを採用して、限定的な監督を持つ特定のドメインに微調整の推論モデルを適用する。
RFTにインスパイアされたSFTをRLSRに置き換えて、RLフレームワークにおける広範なSFTデータセットを活用することにより、ベースモデルの命令追従能力を向上させる。
RLSRでは、ベースモデルは各プロンプトに対して複数の応答を生成し、生成した応答と人ラベルされた応答のセマンティック埋め込み空間におけるコサイン類似性として報酬スコアを算出する。
RLSRは様々な方法で利用することができる。
例えば、Qwen-7B(INFINITY)のRLSR(SB)は、SFTの21.01%を上回る26.34%のAlpacaEval勝利率を達成した。
さらに、SFTとRLSRを組み合わせることで下流タスクのパフォーマンスがさらに向上し、Qwen-7B(INFINITY)はSFT + RLSRでトレーニングすると30.73%の勝利率を達成した。
関連論文リスト
- Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。
SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。
本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-06T03:01:14Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved) [3.13388270461847]
我々は、教師付き微調整(SFT)と強化学習(RL)による最適政策の発見理論と実践との関係を描いている。
SFTに小さな修正を加えることで、RLのトレーニングに近く行動する重み付き変異が重要となることを示す。
我々は、この変種を重み付けされた教師付き微調整(iw-SFT)として参照する。
論文 参考訳(メタデータ) (2025-07-17T07:26:54Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。