論文の概要: Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
- arxiv url: http://arxiv.org/abs/2505.13026v2
- Date: Tue, 27 May 2025 07:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.566387
- Title: Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
- Title(参考訳): タスク特化LDMのための教師付き微調整・強化学習のステップワイド適応統合
- Authors: Jack Chen, Fazhong Liu, Naruto Liu, Yuhan Luo, Erqu Qin, Harry Zheng, Tian Dong, Haojin Zhu, Yan Meng, Xiao Wang,
- Abstract要約: SASRは、大規模言語モデルのためのステップワイド適応型ハイブリッドトレーニングフレームワークである。
SFTとRLを統一し、最適化全体を通して動的に2つのバランスをとる。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
- 参考スコア(独自算出の注目度): 13.292104357930866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at mathematical reasoning and logical problem-solving. The current popular training paradigms primarily use supervised fine-tuning (SFT) and reinforcement learning (RL) to enhance the models' reasoning abilities. However, when using SFT or RL alone, there are respective challenges: SFT may suffer from overfitting, while RL is prone to mode collapse. The state-of-the-art methods have proposed hybrid training schemes. However, static switching faces challenges such as poor generalization across different tasks and high dependence on data quality. In response to these challenges, inspired by the curriculum learning-quiz mechanism in human reasoning cultivation, We propose SASR, a step-wise adaptive hybrid training framework that theoretically unifies SFT and RL and dynamically balances the two throughout optimization. SASR uses SFT for initial warm-up to establish basic reasoning skills, and then uses an adaptive dynamic adjustment algorithm based on gradient norm and divergence relative to the original distribution to seamlessly integrate SFT with the online RL method GRPO. By monitoring the training status of LLMs and adjusting the training process in sequence, SASR ensures a smooth transition between training schemes, maintaining core reasoning abilities while exploring different paths. Experimental results demonstrate that SASR outperforms SFT, RL, and static hybrid training methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学的推論と論理的問題解決に優れる。
現在の一般的なトレーニングパラダイムは、主に教師付き微調整(SFT)と強化学習(RL)を使用して、モデルの推論能力を高めている。
しかし、SFTまたはRLのみを使用する場合、SFTはオーバーフィッティングに悩まされ、RLはモード崩壊する傾向にある。
最先端の手法はハイブリッドトレーニングスキームを提案している。
しかし、静的スイッチングは、異なるタスク間の一般化の低さや、データ品質への高い依存といった課題に直面している。
これらの課題に対応するために,我々は,SFTとRLを理論的に統一し,最適化全体を通して動的にバランスをとるステップワイド適応型ハイブリッドトレーニングフレームワークSASRを提案する。
SASRは、初期ウォームアップにSFTを使用して基本的な推論スキルを確立し、その後、勾配ノルムと元の分布に対するばらつきに基づく適応動的調整アルゴリズムを使用して、オンラインRL法GRPOとSFTをシームレスに統合する。
LLMのトレーニング状況を監視し、一連のトレーニングプロセスを調整することで、SASRはトレーニングスキーム間のスムーズな移行を保証し、異なるパスを探索しながらコア推論能力を維持する。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
関連論文リスト
- Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models [53.567732520169]
テスト時間スケーリングは、推論中にモデルのインテリジェンスを段階的に引き出す、有望なアプローチである。
本稿では,推論のためのトレーニング不要なTTS手法に焦点をあてる。
ハイブリッドテスト時間スケーリングと呼ばれる新しい推論パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-21T11:28:09Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning [20.442971494407896]
大規模言語モデル (LLM) は推論タスクにおいて顕著な進歩を遂げているが、スーパービジョンファインチューニング (SFT) と強化学習 (RL) の最適統合は依然として根本的な課題である。
本稿では,エントロピーを考慮した重み付け機構により,両方のファインチューニングパラダイムを統一する単一ステージ手法であるSupervised Reinforcement Fine-Tuning (SRFT)を提案する。
大規模な実験の結果、SRFTは平均精度59.1%に達し、5つの数学的推論ベンチマークでは0-RL法を9.0%上回り、3つのアウト・オブ・ディストリビューションベンチマークでは10.9%を上回った。
論文 参考訳(メタデータ) (2025-06-24T16:31:37Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Efficient Reinforcement Finetuning via Adaptive Curriculum Learning [24.52451100497884]
強化微調整(RFT)は、大規模言語モデル(LLM)の数学的推論能力を高める大きな可能性を示している。
AdaRFTは、モデルの最近の報奨信号に基づいて、トレーニング問題の難易度を動的に調整する。
AdaRFTはトレーニング時間を最大2倍に短縮し、かなりのマージンで精度を向上し、よりスケーラブルで効果的なRTTフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-07T21:31:31Z) - Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。
変分推論の観点からRLHFの単純化を提案する。
我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-16T07:22:00Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment [47.682736928029996]
大規模言語モデル(LLM)は、事前訓練と監視ファインチューニング(SFT)によって得られる能力の劣化を防止しつつ、人間中心の値と整合するように設計されている。
本稿では、RLHFとSFTモデルパラメータを補間することにより、人間の好みと基本能力のトレードオフを調整し、アライメント税を低減できることを示す。
これはアライメント税を軽減しつつアライメント報酬を大幅に向上させ、14のベンチマークで全体のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-05-28T07:53:40Z) - Training Neural Networks from Scratch with Parallel Low-Rank Adapters [46.764982726136054]
計算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムである LoRA-the-Explorer (LTE) を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:55:13Z) - ATE-SG: Alternate Through the Epochs Stochastic Gradient for Multi-Task Neural Networks [44.99833362998488]
本稿では,ハードパラメータ共有マルチタスクニューラルネットワーク(MTNN)のための新しい代替トレーニング手法を提案する。
提案した代替トレーニング手法では,タスク固有の重みをエポックを通じて交互に更新し,モデルのマルチヘッドアーキテクチャを活用する。
実証実験では、訓練の正規化と計算要求の削減が実証された。
論文 参考訳(メタデータ) (2023-12-26T21:33:03Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。