論文の概要: VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
- arxiv url: http://arxiv.org/abs/2602.10693v1
- Date: Wed, 11 Feb 2026 09:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.663461
- Title: VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
- Title(参考訳): VESPO:安定オフポリティLLMトレーニングのための変分列レベルソフトポリシー最適化
- Authors: Guobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu,
- Abstract要約: 訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
- 参考スコア(独自算出の注目度): 18.849117699859622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO
- Abstract(参考訳): 訓練安定性は、大規模言語モデル(LLM)の強化学習(RL)において依然として中心的な課題である。
ポリシーの安定性、非同期トレーニング、トレーニングと推論エンジンのミスマッチはすべて、行動ポリシーを現在の方針から逸脱させ、トレーニングの崩壊を危険にさらす。
重要度サンプリングは、この分散シフトに対する原則的な補正を提供するが、高いばらつきに悩まされている。
本稿では,変量レベルのソフトポリシー最適化(VESPO)を提案する。
分散還元を提案分布上の変分定式化に組み込むことで、VESPOは長さ正規化なしでシーケンスレベルの重みを直接操作する閉形式整形カーネルを導出する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度比で維持し、完全に非同期で実行し、高密度モデルとMixture-of-Expertsモデルの両方で一貫したゲインを提供する。
コードはhttps://github.com/FloyedShen/VESPOで入手できる。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。