論文の概要: Rethinking Expert Trajectory Utilization in LLM Post-training
- arxiv url: http://arxiv.org/abs/2512.11470v1
- Date: Fri, 12 Dec 2025 11:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.743372
- Title: Rethinking Expert Trajectory Utilization in LLM Post-training
- Title(参考訳): LLMポストトレーニングにおけるエキスパート軌道利用の再考
- Authors: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin,
- Abstract要約: 我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。
逐次SFT-then-RLパイプラインを優れた標準として確立する。
本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 35.018182540417236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.
- Abstract(参考訳): 効果的なポストトレーニングは、スーパービジョンファインチューニング(SFT)と強化学習(RL)を統合しているが、専門家の軌道を利用するための最適なメカニズムは未解決のままである。
我々は,この景観を理論的に基盤として,基礎的なSFT性能とその後のRL可塑性に分解するPlasticity-Ceiling Frameworkを提案する。
大規模なベンチマークにより,SFT-then-RLパイプラインを優れた標準として確立し,同期化アプローチの安定性の欠陥を克服する。
さらに,(1)SFT安定度やマイルオーバーフィッティングサブフェーズにおけるRLへの遷移は,RLの塑性を損なうことなく基礎的なSFT性能を最大化すること,(2)SFT-then-RLスケーリングの文脈で 'Less is More'' を拡散させることにより,データスケールが主学習電位を決定すること,(3)トラジェクトリが性能乗算器として機能すること,(3)最小SFTバリデーション損失が最終性能天井を最大化する専門家トラジェクトリを選択するための堅牢な指標として機能すること,など,正確なスケーリングガイドラインを導出する。
本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
関連論文リスト
- Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。
SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。
本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-06T03:01:14Z) - Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文 参考訳(メタデータ) (2025-09-28T08:58:12Z) - RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning [36.06085913761571]
本研究では,二段階最適化を用いた推論モデル学習手法を提案する。
最適RLポリシーにSFTの目的を条件付けることにより、SFTはRLの最適化プロセスの導出方法をメタ学習することができる。
論文 参考訳(メタデータ) (2025-09-08T17:58:02Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Understanding Forgetting in LLM Supervised Fine-Tuning and Preference Learning - A Convex Optimization Perspective [55.66517396157806]
オープンソースLLMのポストトレーニングにおいて広く採用されているアプローチは、SFTとRLHF/DPOのシーケンシャルな実行である。
これはSFTとRLHF/DPOのトレードオフの点において最適である。
本稿では,理論収束保証と逐次後学習フレームワークの性能を実証的に向上させる,実践的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。