論文の概要: Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.04072v2
- Date: Wed, 08 Oct 2025 04:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 12:02:36.794909
- Title: Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning
- Title(参考訳): Slow-Fast Policy Optimization: LLM推論のためのリポジション-before-Update
- Authors: Ziyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
- 参考スコア(独自算出の注目度): 45.51804571136028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93\texttimes{} fewer rollouts and an up to 4.19\texttimes{} reduction in wall-clock time to match GRPO's best accuracy.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)における推論の強化の中心となっている。
しかし、グループ相対政策最適化(GRPO)のような政治アルゴリズムは、しばしば早期訓練に苦しめられ、低品質なロールアウトからのノイズの勾配は不安定な更新と非効率な探索をもたらす。
Slow-Fast Policy Optimization (SFPO) は、各ステップを3段階に分解することでこれらの制限に対処するシンプルで効率的なフレームワークである。
この更新前の設計では、目的とロールアウトのプロセスは変更されず、SFPOは既存のポリシー段階のパイプラインと互換性がある。
大規模な実験により、SFPOは安定性を一貫して改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速することが示された。
具体的には、数学推論ベンチマークでGRPOを平均2.80ポイント上回る。
また、GRPOの最良の精度に合わせるために、最大4.93\texttimes{}のロールアウトを減らし、最大4.19\texttimes{}のウォールタイム時間を短縮する。
関連論文リスト
- Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization [0.0]
PPO-BRは、新しい探索と収束信号を単一の信頼領域に融合することで、パラダイム適応RLを確立する。
この研究は、位相認識学習における重要なギャップを埋め、ロボット手術のような安全クリティカルなシステムへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-05-23T10:30:58Z) - Learn Your Reference Model for Real Good Alignment [3.091688550418396]
大規模言語モデル(LLM)アライメントのためのオフラインメソッドは、過度な最適化の影響を受けやすい。
我々は、トレーニングプロセスを通して参照ポリシーを動的に更新する、Trust Regionと呼ばれるオフラインアライメント手法の新たなパラダイムを提案する。
この結果から,TRアライメント手法は過度な最適化を効果的に軽減し,初期基準ポリシからかなり逸脱したモデルでも高い性能を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-04-15T10:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。