論文の概要: Rethinking the Trust Region in LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.04879v1
- Date: Wed, 04 Feb 2026 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.703087
- Title: Rethinking the Trust Region in LLM Reinforcement Learning
- Title(参考訳): LLM強化学習における信頼領域の再考
- Authors: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee,
- Abstract要約: PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
- 参考スコア(独自算出の注目度): 72.25890308541334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)はLLM(Large Language Models)の基盤となり、PPO(Proximal Policy Optimization)がデファクトスタンダードアルゴリズムとして機能している。
PPO のコア比クリッピング機構は LLM 固有の大きな語彙に対して構造的に不適合であると主張する。
PPOはサンプリングされたトークンの確率比に基づいてポリシーの更新を制限し、これは真のポリシーのばらつきをノイズの多い単サンプルモンテカルロ推定として機能する。
低確率トークンへの更新は積極的に過度に罰せられ、高確率トークンの破滅的なシフトは過度に抑制され、非効率性と不安定性のトレーニングにつながる。
そこで本研究では,政策偏差の直接推定(例えば,総変量あるいはKL)に基づいて,ヒューリスティックなクリッピングをより原理的な制約で置き換える,ダイバージェンス近似最適化(DPPO)を提案する。
メモリフットプリントの巨大化を回避するため,2進法とTop-K近似を導入した。
実験により,DPPOは従来の方法に比べて訓練の安定性と効率性が向上し,より堅牢なLLM微調整基盤を提供することが示された。
関連論文リスト
- A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training [45.777138699734024]
本稿では、条件付きリスク理論と分布値モデリングを組み合わせた新しいRLフレームワークであるDVPOを紹介し、ロバスト性と一般化のバランスを改善する。
DVPOはPPO、GRPO、ロバストなベルマンベースのPPOを常に上回っている。
論文 参考訳(メタデータ) (2025-12-03T14:48:38Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models [11.295986905174635]
ルールベース強化学習(RL)は、ルールベース報酬を用いた言語モデル(LM)の推論能力を改善した。
既存のRLメソッドは、大きなポリシー更新と不適切なクリッピングがトレーニングの崩壊につながるような、トレーニングの不安定さに悩まされることが多い。
本稿では,政策学習の安定化を目的とした新しいアルゴリズムCPGDを提案する。
論文 参考訳(メタデータ) (2025-05-18T17:44:53Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。