論文の概要: Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.13985v1
- Date: Sat, 14 Mar 2026 15:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.526397
- Title: Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models
- Title(参考訳): 教師付き微調整と強化学習--大規模言語モデルにおけるポストトレーニング手法の検討
- Authors: Haitao Jiang, Wenbo Zhang, Jiarui Yao, Hengrui Cai, Sheng Wang, Rui Song,
- Abstract要約: 事前学習されたLarge Language Model (LLM) は幅広い能力を示すが、特定のタスクやドメインに対して、より正確で信頼性の高い推論の達成は、一般的にポストトレーニングに依存する。
近年の理論的・実証的な展開は, スーパービジョンファインチューニング (SFT) と強化学習 (RL) が密接に結びついていることを示している。
本研究は,SFTおよびRLを用いたLLMポストトレーニングにおける総合的かつ統一的な視点を示す。
- 参考スコア(独自算出の注目度): 13.326454171513296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.
- Abstract(参考訳): 事前学習されたLarge Language Model (LLM) は幅広い能力を示すが、特定のタスクやドメインに対して、より正確で信頼性の高い推論を達成するには、一般的には、監視されたファインチューニング (SFT) や強化学習 (RL) を通じた後トレーニングに依存する。
しばしば異なる方法論として扱われるが、近年の理論的および実証的な展開は、SFTとRLが密接に結びついていることを示している。
本研究は,SFTおよびRLを用いたLLMポストトレーニングにおける総合的かつ統一的な視点を示す。
まず、目的、アルゴリズム構造、データ要求について、両手法の詳細な概要を述べる。
次に,SFTとRLを統合したフレームワーク,ハイブリッドトレーニングパイプライン,補完的な強みを利用する手法を体系的に分析する。
2023年から2025年にかけての最近の応用研究を代表して,新たなトレンドを特定し,ハイブリッドポストトレーニングパラダイムへの急激なシフトを特徴付けるとともに,各手法がいつ,なぜ最も効果的かを明らかにするためのキーテイクアウトを蒸留する。
本研究は,理論的な洞察,実践的方法論,実証的な証拠を合成することにより,SFTとRLの統一された枠組み内でのコヒーレントな理解を確立し,拡張性,効率的,一般化可能なLLMポストトレーニングにおける将来的な研究の方向性を概説する。
関連論文リスト
- Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。
特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。
また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文 参考訳(メタデータ) (2025-08-11T17:39:45Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Large Language Models as Computable Approximations to Solomonoff Induction [11.811838796672369]
我々は,大規模言語モデル (LLM) とアルゴリズム情報理論 (AIT) の間の最初の公式な接続を確立する。
我々はAITを活用し、文脈内学習、少数ショット学習、スケーリング法則の統一的な理論的説明を提供する。
我々の枠組みは理論的基礎と実践的LLM行動のギャップを埋め、将来のモデル開発に説明力と実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-21T17:35:08Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。
これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文 参考訳(メタデータ) (2023-02-11T03:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。