論文の概要: Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective
- arxiv url: http://arxiv.org/abs/2605.07331v1
- Date: Fri, 08 May 2026 06:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.863979
- Title: Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective
- Title(参考訳): LLM政策最適化における重要度サンプリングの再考:累積的視点
- Authors: Yuheng Zhang, Chenlu Ye, Shuowei Jin, Changlong Yu, Wei Xiong, Saurabh Sahu, Nan Jiang,
- Abstract要約: トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
- 参考スコア(独自算出の注目度): 22.848847562976633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning, including reinforcement learning with verifiable rewards (RLVR), has emerged as a powerful approach for LLM post-training. Central to these approaches is the design of the importance sampling (IS) ratio used in off-policy policy-gradient estimation. Existing methods face a fundamental bias-variance dilemma: token-level IS ratios, as adopted by PPO (Schulman et al., 2017) and GRPO (Shao et al., 2024), introduce bias by ignoring prefix state distribution mismatch; full sequence ratios provide exact trajectory-level correction but suffer from high variance due to the multiplicative accumulation of per-token ratios, while GSPO (Zheng et al., 2025) improves numerical stability via length normalization at the cost of deviating from the exact full-sequence IS correction. In this work, we identify the cumulative token IS ratio, the product of per-token ratios up to position $t$, as a theoretically principled solution to this dilemma. We prove that, under the token-level policy-gradient formulation, this ratio provides an unbiased prefix correction for each token-level gradient term and has strictly lower variance than the full sequence ratio. Building on this insight, we propose CTPO (Cumulative Token Policy Optimization), which combines the cumulative token IS ratio with position-adaptive clipping that scales log-space clip bounds according to the natural $\sqrt{t}$ growth of the cumulative log-ratio. This yields more consistent regularization across token positions. We implement and evaluate CTPO in the tool-integrated reasoning setting on several challenging mathematical reasoning benchmarks, achieving the best average performance across both model scales compared with strong GRPO and GSPO baselines. Code will be available at https://github.com/horizon-llm/CTPO.
- Abstract(参考訳): 強化学習(RLVR)を含む強化学習は、LLMポストトレーニングの強力なアプローチとして現れている。
これらのアプローチの中心は、政策の段階的評価に使用される重要サンプリング(IS)比の設計である。
トークンレベルのIS比は、PPO (Schulman et al , 2017) とGRPO (Shao et al , 2024) で採用されているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入し、フルシーケンス比は正確なトラジェクトリレベルの補正を提供するが、トーケンごとの比率の乗算的蓄積により高い分散に悩まされる一方、GSPO (Zheng et al , 2025) は、正確なフルシーケンスIS補正から逸脱するコストで、長さ正規化による数値安定性を向上させる。
本研究では、このジレンマに対する理論的に原理化された解として、累積トークンIS比、トーケン当たりの比率の積を$t$まで同定する。
この比は各トークンレベル勾配項に対して偏りのないプレフィックス補正を提供し、全列比よりも厳密な分散を有することを証明している。
この知見に基づいて、累積トークンIS比と、累積ログ比の自然な$\sqrt{t}$成長に応じてログ空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPO(Cumulative Token Policy Optimization)を提案する。
これによりトークンの位置をまたいでより一貫した正規化が得られる。
我々は,いくつかの挑戦的な数学的推論ベンチマークにおいて,ツール統合推論設定においてCTPOを実装し,強力なGRPOおよびGSPOベースラインと比較して,両モデルスケールで最高の平均性能を実現する。
コードはhttps://github.com/horizon-llm/CTPO.comから入手できる。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - From $\boldsymbol{\logπ}$ to $\boldsymbolπ$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight [6.07556923512707]
Reinforcement Learning with Verifiable Rewards (RLVR)は、Large Language Model (LLM)推論の飛躍を触媒しているが、その最適化のダイナミクスは脆弱である。
GRPOのような標準的なアルゴリズムはハードクリッピングを通じて安定性を強制する。
本稿では,重要サンプリング比に基づくデカップリング崩壊機構を用いたデカップリング・グラディエント・ポリシー・最適化(DGPO)を提案する。
論文 参考訳(メタデータ) (2026-03-15T14:00:48Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL [39.23942538769713]
大規模言語モデルのための強化学習(LLMs)は、勾配のばらつきが爆発的に広がるため、長い水平タスクのトレーニング崩壊に悩まされることが多い。
我々は、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。
提案手法はトレーニングの安定性を達成し,N=32$の大規模グループサイズとの性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
論文 参考訳(メタデータ) (2026-02-06T03:16:04Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。