論文の概要: Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling
- arxiv url: http://arxiv.org/abs/2507.01679v1
- Date: Wed, 02 Jul 2025 13:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.242636
- Title: Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling
- Title(参考訳): プレフィックスサンプリングによるブラディング監督・補強微細調整
- Authors: Zeyu Huang, Tianhao Cheng, Zihan Qiu, Zili Wang, Yinghui Xu, Edoardo M. Ponti, Ivan Titov,
- Abstract要約: Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
- 参考スコア(独自算出の注目度): 35.64557242726578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing post-training techniques for large language models are broadly categorized into Supervised Fine-Tuning (SFT) and Reinforcement Fine-Tuning (RFT). Each paradigm presents a distinct trade-off: SFT excels at mimicking demonstration data but can lead to problematic generalization as a form of behavior cloning. Conversely, RFT can significantly enhance a model's performance but is prone to learn unexpected behaviors, and its performance is highly sensitive to the initial policy. In this paper, we propose a unified view of these methods and introduce Prefix-RFT, a hybrid approach that synergizes learning from both demonstration and exploration. Using mathematical reasoning problems as a testbed, we empirically demonstrate that Prefix-RFT is both simple and effective. It not only surpasses the performance of standalone SFT and RFT but also outperforms parallel mixed-policy RFT methods. A key advantage is its seamless integration into existing open-source frameworks, requiring only minimal modifications to the standard RFT pipeline. Our analysis highlights the complementary nature of SFT and RFT, and validates that Prefix-RFT effectively harmonizes these two learning paradigms. Furthermore, ablation studies confirm the method's robustness to variations in the quality and quantity of demonstration data. We hope this work offers a new perspective on LLM post-training, suggesting that a unified paradigm that judiciously integrates demonstration and exploration could be a promising direction for future research.
- Abstract(参考訳): 既存の大規模言語モデルのポストトレーニング技術は、広くSupervised Fine-Tuning (SFT) とReinforcement Fine-Tuning (RFT) に分類される。
SFTはデモデータの模倣に優れるが、行動クローニングの一形態として問題のある一般化につながる可能性がある。
逆に、RFTはモデルの性能を大幅に向上させることができるが、予期せぬ振る舞いを学習する傾向があり、その性能は初期ポリシーに非常に敏感である。
本稿では,これらの手法の統一的なビューを提案し,実証と探索の両方から学習を相乗化するためのハイブリッドアプローチであるPrefix-RFTを紹介する。
数学的推論問題をテストベッドとして用いて,Prefix-RFTは単純かつ効果的であることを示す。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
主要な利点は、既存のオープンソースフレームワークへのシームレスな統合であり、標準のRTTパイプラインに最小限の変更しか必要としないことだ。
本分析では,SFT と RFT の相補的な性質を強調し,Prefix-RFT がこれらの2つの学習パラダイムを効果的に調和させることを示す。
さらに,実験データの品質と量の変化に対する手法のロバスト性についても検討した。
この研究は、LLMのポストトレーニングに関する新たな視点を提供し、実証と探索を司法的に統合する統一パラダイムが将来の研究にとって有望な方向であることを示唆している。
関連論文リスト
- Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning [20.442971494407896]
大規模言語モデル (LLM) は推論タスクにおいて顕著な進歩を遂げているが、スーパービジョンファインチューニング (SFT) と強化学習 (RL) の最適統合は依然として根本的な課題である。
本稿では,エントロピーを考慮した重み付け機構により,両方のファインチューニングパラダイムを統一する単一ステージ手法であるSupervised Reinforcement Fine-Tuning (SRFT)を提案する。
大規模な実験の結果、SRFTは平均精度59.1%に達し、5つの数学的推論ベンチマークでは0-RL法を9.0%上回り、3つのアウト・オブ・ディストリビューションベンチマークでは10.9%を上回った。
論文 参考訳(メタデータ) (2025-06-24T16:31:37Z) - UFT: Unifying Supervised and Reinforcement Fine-Tuning [21.195897792629548]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Understanding Fine-tuning in Approximate Unlearning: A Theoretical Perspective [39.958103832214135]
ファインチューニング(FT)手法は、未学習を近似するための基本的なアプローチの1つとなっている。
本稿では,線形回帰フレームワーク内での機械学習のためのFT法に関する最初の理論的解析を行う。
本稿では,残りのデータセットに基づいて重量分布マップを構築するRBM(Retention-Based Masking)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:01:52Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。