Fugu-MT 論文翻訳(概要): UFT: Unifying Supervised and Reinforcement Fine-Tuning

論文の概要: UFT: Unifying Supervised and Reinforcement Fine-Tuning

arxiv url: http://arxiv.org/abs/2505.16984v1
Date: Thu, 22 May 2025 17:53:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.530373
Title: UFT: Unifying Supervised and Reinforcement Fine-Tuning
Title（参考訳）: UFT:監督強化ファインチューニングの統合
Authors: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar,
Abstract要約: 我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。 UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
参考スコア（独自算出の注目度）: 21.195897792629548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training has demonstrated its importance in enhancing the reasoning capabilities of large language models (LLMs). The primary post-training methods can be categorized into supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT is efficient and well-suited for small language models, but it may lead to overfitting and limit the reasoning abilities of larger models. In contrast, RFT generally yields better generalization but depends heavily on the strength of the base model. To address the limitations of SFT and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm that unifies SFT and RFT into a single, integrated process. UFT enables the model to effectively explore solutions while incorporating informative supervision signals, bridging the gap between memorizing and thinking underlying existing methods. Notably, UFT outperforms both SFT and RFT in general, regardless of model sizes. Furthermore, we theoretically prove that UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for the first time that unified training can exponentially accelerate convergence on long-horizon reasoning tasks.
Abstract（参考訳）: ポストトレーニングは、大規模言語モデル(LLM)の推論能力を高めることの重要性を示している。訓練後の主要な方法は、教師付き微調整(SFT)と強化微調整(RFT)に分類される。 SFTは小さな言語モデルに適しているが、大きなモデルの推論能力の過度な適合と制限につながる可能性がある。対照的に、RFTは一般により優れた一般化をもたらすが、基礎モデルの強さに大きく依存する。 SFT と RFT の限界に対処するため,SFT と RFT を単一の統合プロセスに統合する新たなポストトレーニングパラダイムである Unified Fine-Tuning (UFT) を提案する。 UFTは、既存の方法の記憶と思考のギャップを埋めつつ、情報的な監視信号を導入しながら、効果的に解を探索することを可能にする。特に、UFTはモデルのサイズに関わらず、SFTとRFTのどちらよりも優れています。さらに,UFTがRFT固有の指数関数的サンプル複雑性のボトルネックを破ることが理論的に証明され,統合トレーニングが長期的推論タスクの収束を指数関数的に加速できることが初めて示された。

関連論文リスト

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文参考訳（メタデータ） (2025-08-07T17:59:04Z)
The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。 SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文参考訳（メタデータ） (2025-07-10T09:05:49Z)
Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文参考訳（メタデータ） (2025-07-02T13:04:09Z)
Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。 SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文参考訳（メタデータ） (2025-06-30T04:15:01Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。 i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文参考訳（メタデータ） (2025-02-25T22:38:55Z)
UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function [18.54945183526789]
SFTとアライメントを単一のトレーニングステージに統合するUnified Fine-Tuning(UFT)を導入する。実験結果から,UFTは命令調整データのみにおいて,SFTよりも優れていることが示された。命令チューニングデータとアライメントデータを組み合わせることで、UFTは破滅的な忘れを効果的に防止する。
論文参考訳（メタデータ） (2024-10-28T18:34:25Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。 IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文参考訳（メタデータ） (2024-05-20T08:23:28Z)
ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。 ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。 GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文参考訳（メタデータ） (2024-01-17T04:43:21Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。