論文の概要: UFT: Unifying Supervised and Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.16984v1
- Date: Thu, 22 May 2025 17:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.530373
- Title: UFT: Unifying Supervised and Reinforcement Fine-Tuning
- Title(参考訳): UFT:監督強化ファインチューニングの統合
- Authors: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar,
- Abstract要約: 我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
- 参考スコア(独自算出の注目度): 21.195897792629548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has demonstrated its importance in enhancing the reasoning capabilities of large language models (LLMs). The primary post-training methods can be categorized into supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT is efficient and well-suited for small language models, but it may lead to overfitting and limit the reasoning abilities of larger models. In contrast, RFT generally yields better generalization but depends heavily on the strength of the base model. To address the limitations of SFT and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm that unifies SFT and RFT into a single, integrated process. UFT enables the model to effectively explore solutions while incorporating informative supervision signals, bridging the gap between memorizing and thinking underlying existing methods. Notably, UFT outperforms both SFT and RFT in general, regardless of model sizes. Furthermore, we theoretically prove that UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for the first time that unified training can exponentially accelerate convergence on long-horizon reasoning tasks.
- Abstract(参考訳): ポストトレーニングは、大規模言語モデル(LLM)の推論能力を高めることの重要性を示している。
訓練後の主要な方法は、教師付き微調整(SFT)と強化微調整(RFT)に分類される。
SFTは小さな言語モデルに適しているが、大きなモデルの推論能力の過度な適合と制限につながる可能性がある。
対照的に、RFTは一般により優れた一般化をもたらすが、基礎モデルの強さに大きく依存する。
SFT と RFT の限界に対処するため,SFT と RFT を単一の統合プロセスに統合する新たなポストトレーニングパラダイムである Unified Fine-Tuning (UFT) を提案する。
UFTは、既存の方法の記憶と思考のギャップを埋めつつ、情報的な監視信号を導入しながら、効果的に解を探索することを可能にする。
特に、UFTはモデルのサイズに関わらず、SFTとRFTのどちらよりも優れています。
さらに,UFTがRFT固有の指数関数的サンプル複雑性のボトルネックを破ることが理論的に証明され,統合トレーニングが長期的推論タスクの収束を指数関数的に加速できることが初めて示された。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function [18.54945183526789]
SFTとアライメントを単一のトレーニングステージに統合するUnified Fine-Tuning(UFT)を導入する。
実験結果から,UFTは命令調整データのみにおいて,SFTよりも優れていることが示された。
命令チューニングデータとアライメントデータを組み合わせることで、UFTは破滅的な忘れを効果的に防止する。
論文 参考訳(メタデータ) (2024-10-28T18:34:25Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。