論文の概要: Ratio-Variance Regularized Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.26784v1
- Date: Tue, 26 May 2026 09:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.862109
- Title: Ratio-Variance Regularized Policy Optimization
- Title(参考訳): 比変数規則化政策最適化
- Authors: Yu Luo, Shuo Han, Yihan Hu, Lei Lv, Huaping Liu, Fuchun Sun, Jianye Hao, Dong Li,
- Abstract要約: ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。
本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
- 参考スコア(独自算出の注目度): 64.95520246570446
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard on-policy reinforcement learning relies on heuristic clipping to enforce trust regions, but this mechanism imposes a severe cost by indiscriminately truncating high-return yet high-divergence updates. We demonstrate that explicitly constraining the policy ratio variance provides a principled local approximation to trust-region constraints, eliminating the need for binary hard clipping. By acting as a distributional ``soft brake'', this approach preserves critical gradient signals from novel discoveries while naturally down-weighting and enabling the reuse of stale, off-policy data. We introduce ${\bf R}^2{\bf VPO}$ (Ratio-Variance Regularized Policy Optimization), which implements this constraint via a primal-dual optimization framework. Extensive evaluations across $7$ LLM scales, spanning both fast and slow reasoning paradigms, and $10$ robotic control tasks demonstrate the generality of the proposed approach. R$^2$VPO achieves substantial performance gains on mathematical reasoning benchmarks, with particularly pronounced improvements on smaller models, while significantly improving sample efficiency. Furthermore, it consistently outperforms PPO baselines in continuous control domains, particularly in sparse-reward and dynamic environments. Together, these findings establish ratio-variance regularization as a principled foundation for stable and data-efficient policy optimization.
- Abstract(参考訳): 標準的なオンライン強化学習は、信頼領域を強制するためにヒューリスティックなクリッピングに依存しているが、このメカニズムは、高いリターンと高分岐率の更新を無差別に中断することで、深刻なコストを課している。
ポリシ比の分散を明示的に制限することは、信頼領域の制約に対する原則的な局所近似を提供し、バイナリのハードクリッピングの必要性をなくすことを実証する。
分散的な「ソフトブレーキ」として振る舞うことによって、新しい発見から重要な勾配信号を保存すると同時に、自然に低重み付けを行い、不安定で非政治的なデータの再利用を可能にする。
本稿では,この制約を予備的な双対最適化フレームワークを通じて実装する,${\bf R}^2{\bf VPO}$(Ratio-Variance Regularized Policy Optimization)を紹介する。
高速かつ低速な推論パラダイムと10ドルのロボット制御タスクにまたがる7ドルのLLMスケールにわたる大規模な評価は、提案されたアプローチの汎用性を実証している。
R$^2$VPOは、数学的推論ベンチマークにおいて、特に小さなモデルでは顕著に改善され、サンプル効率が大幅に向上する。
さらに、連続的な制御領域、特にスパース・リワードおよび動的環境において、PPOベースラインを一貫して上回る。
これらの知見は、安定的でデータ効率のよい政策最適化の原則として、比分散正則化を確立した。
関連論文リスト
- Multi-Step Likelihood-Ratio Correction for Reinforcement Learning with Verifiable Rewards [37.18459396066428]
我々は、次の$N-1$トークンの累積確率比を用いて、PPOのサロゲート目的を増大させる$N$-stepフォワードトレースを導入する。
本稿では,N$-Step Forward-Trace Policy Optimization (NFPO)を提案する。
論文 参考訳(メタデータ) (2026-05-20T08:01:01Z) - Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。