Fugu-MT 論文翻訳(概要): Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

論文の概要: Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

arxiv url: http://arxiv.org/abs/2604.08926v1
Date: Fri, 10 Apr 2026 03:42:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.671972
Title: Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning
Title（参考訳）: ブリジングSFTとRL:ロバスト推論のための動的ポリシー最適化
Authors: Taojie Zhu, Dongyang Xu, Ding Zou, Sen Zhao, Qiaobo Hao, Zhiguo Yang, Yonghong He,
Abstract要約: 大規模言語モデル(LLM)のポストトレーニングパラダイムは、基本的なジレンマに直面します。 SFTは安定性(低分散)を提供するが、高い適合バイアスに悩まされる一方、RLは探索(低バイアス)が可能であるが、高勾配のばらつきを持つ波紋である。既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。我々は,この対立を構造的に緩和する統合フレームワークである textbfDYPO (Dynamic Policy Optimization) を提案する。
参考スコア（独自算出の注目度）: 10.4404175363648
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training paradigms for Large Language Models (LLMs), primarily Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), face a fundamental dilemma: SFT provides stability (low variance) but suffers from high fitting bias, while RL enables exploration (low bias) but grapples with high gradient variance. Existing unified optimization strategies often employ naive loss weighting, overlooking the statistical conflict between these distinct gradient signals. In this paper, we provide a rigorous theoretical analysis of this bias-variance trade-off and propose \textbf{DYPO} (Dynamic Policy Optimization), a unified framework designed to structurally mitigate this conflict. DYPO integrates three core components: (1) a \textit{Group Alignment Loss (GAL)} that leverages intrinsic group dynamics to significantly reduce RL gradient variance; (2) a \textit{Multi-Teacher Distillation} mechanism that corrects SFT fitting bias via diverse reasoning paths; and (3) a \textit{Dynamic Exploitation-Exploration Gating} mechanism that adaptively arbitrates between stable SFT and exploratory RL based on reward feedback. Theoretical analysis confirms that DYPO linearly reduces fitting bias and minimizes overall variance. Extensive experiments demonstrate that DYPO significantly outperforms traditional sequential pipelines, achieving an average improvement of 4.8\% on complex reasoning benchmarks and 13.3\% on out-of-distribution tasks. Our code is publicly available at https://github.com/Tocci-Zhu/DYPO.
Abstract（参考訳）: 大規模言語モデル(LLM)のポストトレーニングパラダイム、主に監督された微調整(SFT)と強化学習(RL)は、基本的なジレンマに直面している。既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。本稿では、このバイアス分散トレードオフの厳密な理論的解析を行い、この対立を構造的に緩和する統合フレームワークである「textbf{DYPO} (Dynamic Policy Optimization)」を提案する。 DYPOは、3つの中核成分を統合している: (1) 内在的なグループダイナミクスを活用してRL勾配の分散を著しく低減する \textit{Group Alignment Loss (GAL) 、(2) 多様な推論経路を介してSFT適合バイアスを補正する \textit{Multi-Teacher Distillation} 、(3) 報酬フィードバックに基づいて安定なSFTと探索RLを適応的に調停する \textit{Dynamic Exploitation-Exploration Gating} である。理論的解析により、DYPOは適合バイアスを線形に低減し、全体的な分散を最小化する。大規模な実験により、DYPOは従来のシーケンシャルパイプラインを著しく上回り、複雑な推論ベンチマークでは4.8 %、アウト・オブ・ディストリビューションタスクでは13.3 %の平均的な改善が達成された。私たちのコードはhttps://github.com/Tocci-Zhu/DYPO.comで公開されています。

論文の概要: Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

関連論文リスト