論文の概要: Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
- arxiv url: http://arxiv.org/abs/2505.13026v1
- Date: Mon, 19 May 2025 12:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.578562
- Title: Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
- Title(参考訳): タスク特化LDMのための教師付き微調整・強化学習のステップワイド適応統合
- Authors: Jack Chen, Fazhong Liu, Naruto Liu, Yuhan Luo, Erqu Qin, Harry Zheng, Tian Dong, Haojin Zhu, Yan Meng, Xiao Wang,
- Abstract要約: SASRは、大規模言語モデルのためのステップワイド適応型ハイブリッドトレーニングフレームワークである。
SFTとRLを統一し、最適化全体を通して動的に2つのバランスをとる。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
- 参考スコア(独自算出の注目度): 13.292104357930866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at mathematical reasoning and logical problem-solving. The current popular training paradigms primarily use supervised fine-tuning (SFT) and reinforcement learning (RL) to enhance the models' reasoning abilities. However, when using SFT or RL alone, there are respective challenges: SFT may suffer from overfitting, while RL is prone to mode collapse. The state-of-the-art methods have proposed hybrid training schemes. However, static switching faces challenges such as poor generalization across different tasks and high dependence on data quality. In response to these challenges, inspired by the curriculum learning-quiz mechanism in human reasoning cultivation, We propose SASR, a step-wise adaptive hybrid training framework that theoretically unifies SFT and RL and dynamically balances the two throughout optimization. SASR uses SFT for initial warm-up to establish basic reasoning skills, and then uses an adaptive dynamic adjustment algorithm based on gradient norm and divergence relative to the original distribution to seamlessly integrate SFT with the online RL method GRPO. By monitoring the training status of LLMs and adjusting the training process in sequence, SASR ensures a smooth transition between training schemes, maintaining core reasoning abilities while exploring different paths. Experimental results demonstrate that SASR outperforms SFT, RL, and static hybrid training methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学的推論と論理的問題解決に優れる。
現在の一般的なトレーニングパラダイムは、主に教師付き微調整(SFT)と強化学習(RL)を使用して、モデルの推論能力を高めている。
しかし、SFTまたはRLのみを使用する場合、SFTはオーバーフィッティングに悩まされ、RLはモード崩壊する傾向にある。
最先端の手法はハイブリッドトレーニングスキームを提案している。
しかし、静的スイッチングは、異なるタスク間の一般化の低さや、データ品質への高い依存といった課題に直面している。
これらの課題に対応するために,我々は,SFTとRLを理論的に統一し,最適化全体を通して動的にバランスをとるステップワイド適応型ハイブリッドトレーニングフレームワークSASRを提案する。
SASRは、初期ウォームアップにSFTを使用して基本的な推論スキルを確立し、その後、勾配ノルムと元の分布に対するばらつきに基づく適応動的調整アルゴリズムを使用して、オンラインRL法GRPOとSFTをシームレスに統合する。
LLMのトレーニング状況を監視し、一連のトレーニングプロセスを調整することで、SASRはトレーニングスキーム間のスムーズな移行を保証し、異なるパスを探索しながらコア推論能力を維持する。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
関連論文リスト
- Efficient Reinforcement Finetuning via Adaptive Curriculum Learning [24.52451100497884]
強化微調整(RFT)は、大規模言語モデル(LLM)の数学的推論能力を高める大きな可能性を示している。
AdaRFTは、モデルの最近の報奨信号に基づいて、トレーニング問題の難易度を動的に調整する。
AdaRFTはトレーニング時間を最大2倍に短縮し、かなりのマージンで精度を向上し、よりスケーラブルで効果的なRTTフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-07T21:31:31Z) - Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。
変分推論の観点からRLHFの単純化を提案する。
我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-16T07:22:00Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment [47.682736928029996]
大規模言語モデル(LLM)は、事前訓練と監視ファインチューニング(SFT)によって得られる能力の劣化を防止しつつ、人間中心の値と整合するように設計されている。
本稿では、RLHFとSFTモデルパラメータを補間することにより、人間の好みと基本能力のトレードオフを調整し、アライメント税を低減できることを示す。
これはアライメント税を軽減しつつアライメント報酬を大幅に向上させ、14のベンチマークで全体のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-05-28T07:53:40Z) - Training Neural Networks from Scratch with Parallel Low-Rank Adapters [46.764982726136054]
計算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムである LoRA-the-Explorer (LTE) を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:55:13Z) - ATE-SG: Alternate Through the Epochs Stochastic Gradient for Multi-Task Neural Networks [44.99833362998488]
本稿では,ハードパラメータ共有マルチタスクニューラルネットワーク(MTNN)のための新しい代替トレーニング手法を提案する。
提案した代替トレーニング手法では,タスク固有の重みをエポックを通じて交互に更新し,モデルのマルチヘッドアーキテクチャを活用する。
実証実験では、訓練の正規化と計算要求の削減が実証された。
論文 参考訳(メタデータ) (2023-12-26T21:33:03Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。