論文の概要: Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2601.03320v1
- Date: Tue, 06 Jan 2026 14:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.050082
- Title: Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning
- Title(参考訳): LLMファインチューニングのための比変数規則化ポリシ最適化
- Authors: Yu Luo, Shuo Han, Yihan Hu, Dong Li, Jianye Hao,
- Abstract要約: 本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 48.34492357368989
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: On-policy reinforcement learning (RL), particularly Proximal Policy Optimization (PPO) and Group Relative Policy Optimization (GRPO), has become the dominant paradigm for fine-tuning large language models (LLMs). While policy ratio clipping stabilizes training, this heuristic hard constraint incurs a fundamental cost: it indiscriminately truncates gradients from high-return yet high-divergence actions, suppressing rare but highly informative "eureka moments" in complex reasoning. Moreover, once data becomes slightly stale, hard clipping renders it unusable, leading to severe sample inefficiency. In this work, we revisit the trust-region objective in policy optimization and show that explicitly constraining the \emph{variance (second central moment) of the policy ratio} provides a principled and smooth relaxation of hard clipping. This distributional constraint stabilizes policy updates while preserving gradient signals from valuable trajectories. Building on this insight, we propose $R^2VPO$ (Ratio-Variance Regularized Policy Optimization), a novel primal-dual framework that supports stable on-policy learning and enables principled off-policy data reuse by dynamically reweighting stale samples rather than discarding them. We extensively evaluate $R^2VPO$ on fine-tuning state-of-the-art LLMs, including DeepSeek-Distill-Qwen-1.5B and the openPangu-Embedded series (1B and 7B), across challenging mathematical reasoning benchmarks. Experimental results show that $R^2VPO$ consistently achieves superior asymptotic performance, with average relative gains of up to 17% over strong clipping-based baselines, while requiring approximately 50% fewer rollouts to reach convergence. These findings establish ratio-variance control as a promising direction for improving both stability and data efficiency in RL-based LLM alignment.
- Abstract(参考訳): オンライン強化学習(RL)、特にPPO(Proximal Policy Optimization)とGRPO(Group Relative Policy Optimization)は、大規模言語モデル(LLM)を微調整するための主要なパラダイムとなっている。
政策比率のクリッピングは訓練を安定化させるが、このヒューリスティックなハード制約は基本的なコストを発生させる。
さらに、データがわずかに停滞すると、ハードクリッピングによって使用不能になり、サンプルの非効率性が悪化する。
本研究では,政策最適化における信頼領域の目的を再考し,政策比率の<emph{variance(第2中心モーメント)>を明示的に制約することで,固切りの原則的かつ円滑な緩和を実現することを示す。
この分布制約は、価値ある軌道からの勾配信号を保持しながらポリシー更新を安定化する。
この知見に基づいて、安定なオン・ポリシー学習をサポートし、スタイルサンプルを動的に再重み付けすることで、原則化されたオフ・ポリシーデータ再利用を可能にする新しいプリミティブ・デュアル・フレームワークであるR^2VPO$(Ratio-Variance Regularized Policy Optimization)を提案する。
我々は,DeepSeek-Distill-Qwen-1.5B やopenPangu-Embedded シリーズ (1B と 7B) などの細調整式 LLM に対して,挑戦的な数学的推論ベンチマークを用いて,$R^2VPO$ を広く評価した。
実験結果から,R^2VPO$は強いクリッピングベースラインよりも平均17%向上し,収束に達するにはロールアウトが約50%減少した。
これらの結果から, RL系LLMアライメントにおける安定性とデータ効率の向上を期待できる方向として, 比分散制御が確立された。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。