論文の概要: Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning
- arxiv url: http://arxiv.org/abs/2604.08926v1
- Date: Fri, 10 Apr 2026 03:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.671972
- Title: Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning
- Title(参考訳): ブリジングSFTとRL:ロバスト推論のための動的ポリシー最適化
- Authors: Taojie Zhu, Dongyang Xu, Ding Zou, Sen Zhao, Qiaobo Hao, Zhiguo Yang, Yonghong He,
- Abstract要約: 大規模言語モデル(LLM)のポストトレーニングパラダイムは、基本的なジレンマに直面します。
SFTは安定性(低分散)を提供するが、高い適合バイアスに悩まされる一方、RLは探索(低バイアス)が可能であるが、高勾配のばらつきを持つ波紋である。
既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。
我々は,この対立を構造的に緩和する統合フレームワークである textbfDYPO (Dynamic Policy Optimization) を提案する。
- 参考スコア(独自算出の注目度): 10.4404175363648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training paradigms for Large Language Models (LLMs), primarily Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), face a fundamental dilemma: SFT provides stability (low variance) but suffers from high fitting bias, while RL enables exploration (low bias) but grapples with high gradient variance. Existing unified optimization strategies often employ naive loss weighting, overlooking the statistical conflict between these distinct gradient signals. In this paper, we provide a rigorous theoretical analysis of this bias-variance trade-off and propose \textbf{DYPO} (Dynamic Policy Optimization), a unified framework designed to structurally mitigate this conflict. DYPO integrates three core components: (1) a \textit{Group Alignment Loss (GAL)} that leverages intrinsic group dynamics to significantly reduce RL gradient variance; (2) a \textit{Multi-Teacher Distillation} mechanism that corrects SFT fitting bias via diverse reasoning paths; and (3) a \textit{Dynamic Exploitation-Exploration Gating} mechanism that adaptively arbitrates between stable SFT and exploratory RL based on reward feedback. Theoretical analysis confirms that DYPO linearly reduces fitting bias and minimizes overall variance. Extensive experiments demonstrate that DYPO significantly outperforms traditional sequential pipelines, achieving an average improvement of 4.8\% on complex reasoning benchmarks and 13.3\% on out-of-distribution tasks. Our code is publicly available at https://github.com/Tocci-Zhu/DYPO.
- Abstract(参考訳): 大規模言語モデル(LLM)のポストトレーニングパラダイム、主に監督された微調整(SFT)と強化学習(RL)は、基本的なジレンマに直面している。
既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。
本稿では、このバイアス分散トレードオフの厳密な理論的解析を行い、この対立を構造的に緩和する統合フレームワークである「textbf{DYPO} (Dynamic Policy Optimization)」を提案する。
DYPOは、3つの中核成分を統合している: (1) 内在的なグループダイナミクスを活用してRL勾配の分散を著しく低減する \textit{Group Alignment Loss (GAL) 、(2) 多様な推論経路を介してSFT適合バイアスを補正する \textit{Multi-Teacher Distillation} 、(3) 報酬フィードバックに基づいて安定なSFTと探索RLを適応的に調停する \textit{Dynamic Exploitation-Exploration Gating} である。
理論的解析により、DYPOは適合バイアスを線形に低減し、全体的な分散を最小化する。
大規模な実験により、DYPOは従来のシーケンシャルパイプラインを著しく上回り、複雑な推論ベンチマークでは4.8 %、アウト・オブ・ディストリビューションタスクでは13.3 %の平均的な改善が達成された。
私たちのコードはhttps://github.com/Tocci-Zhu/DYPO.comで公開されています。
関連論文リスト
- SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning [54.393763477932474]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
論文 参考訳(メタデータ) (2026-02-07T09:39:21Z) - ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文 参考訳(メタデータ) (2026-02-03T11:49:46Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [7.685078284407324]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。