論文の概要: A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.22718v1
- Date: Fri, 30 Jan 2026 08:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.330995
- Title: A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization
- Title(参考訳): ステップバック: プレフィックスの重要度が政策最適化を安定化する
- Authors: Shiye Lei, Zhihao Cheng, Dacheng Tao,
- Abstract要約: 強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
- 参考スコア(独自算出の注目度): 58.116300485427764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) post-training has increasingly demonstrated strong ability to elicit reasoning behaviors in large language models (LLMs). For training efficiency, rollouts are typically generated in an off-policy manner using an older sampling policy and then used to update the current target policy. To correct the resulting discrepancy between the sampling and target policies, most existing RL objectives rely on a token-level importance sampling ratio, primarily due to its computational simplicity and numerical stability. However, we observe that token-level correction often leads to unstable training dynamics when the degree of off-policyness is large. In this paper, we revisit LLM policy optimization under off-policy conditions and show that the theoretically rigorous correction term is the prefix importance ratio, and that relaxing it to a token-level approximation can induce instability in RL post-training. To stabilize LLM optimization under large off-policy drift, we propose a simple yet effective objective, Minimum Prefix Ratio (MinPRO). MinPRO replaces the unstable cumulative prefix ratio with a non-cumulative surrogate based on the minimum token-level ratio observed in the preceding prefix. Extensive experiments on both dense and mixture-of-experts LLMs, across multiple mathematical reasoning benchmarks, demonstrate that MinPRO substantially improves training stability and peak performance in off-policy regimes.
- Abstract(参考訳): 強化学習 (RL) は, 大規模言語モデル (LLM) において, 推論行動を引き出す強い能力を示した。
訓練効率を高めるため、ロールアウトは通常、古いサンプリングポリシーを使用して非政治的な方法で生成され、現在のターゲットポリシーを更新するために使用される。
サンプリングポリシーとターゲットポリシーの相違を正すために、既存のRLの目的は、主に計算の単純さと数値安定性のために、トークンレベルの重要度サンプリング比に依存している。
しかし,トークンレベルの補正は,非政治性の度合いが大きい場合,不安定なトレーニングダイナミクスにつながることが多い。
本稿では,外政条件下でのLCM政策の最適化を再検討し,理論上厳密な補正項が優先重要度であり,トークンレベルの近似に緩和することで,RL後トレーニングにおける不安定性を生じさせることを示す。
大規模公共交通機関におけるLCM最適化の安定化を図るため,MinPRO(Minmum Prefix Ratio)を提案する。
MinPROは、不安定な累積プレフィックス比を、前回のプレフィックスで観測される最小トークンレベル比に基づいて非累積サロゲートに置き換える。
複数の数学的推論ベンチマークにおいて、高密度および高密度のLLMの混合実験は、MinPROが非政治体制におけるトレーニング安定性とピーク性能を大幅に改善することを示した。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。