論文の概要: Projected Microbatch Accumulation yields reference-free proximal policy updates for reinforcement learning
- arxiv url: http://arxiv.org/abs/2601.10498v1
- Date: Thu, 15 Jan 2026 15:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.195657
- Title: Projected Microbatch Accumulation yields reference-free proximal policy updates for reinforcement learning
- Title(参考訳): 予測されたマイクロバッチ蓄積は、強化学習のための参照なし近位ポリシー更新をもたらす
- Authors: Nilin Abrahamsen,
- Abstract要約: PROMAは、マイクロバッチアグリゲーションの前にシーケンスワイド勾配成分を投影することで、マイクロバッチ間のポリシー勾配を蓄積する。
PPOやGRPOとは異なり、PRMA近位更新はエントロピー崩壊を誘発せず、参照ポリシーやチャンス比のクリッピングに依存しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This note introduces Projected Microbatch Accumulation (PROMA), a proximal policy update method for large language model fine-tuning. PROMA accumulates policy gradients across microbatches by projecting out sequence-wise gradient components before microbatch aggregation. The projection is applied layer-wise during the backward pass, enabling efficient implementation without additional forward or backward passes. Empirically, PROMA enforces tighter control of local KL divergence than GRPO, resulting in more stable policy learning. Unlike PPO and GRPO, PROMA achieves proximal updates without inducing entropy collapse and does not rely on a reference policy or likelihood-ratio clipping.
- Abstract(参考訳): 本稿では,大規模言語モデルファインチューニングのためのポリシー更新手法であるPROMA(Projected Microbatch Accumulation)を紹介する。
PROMAは、マイクロバッチアグリゲーションの前にシーケンスワイド勾配成分を投影することで、マイクロバッチ間のポリシー勾配を蓄積する。
プロジェクションは後方通過中に層単位で適用され、前方または後方通過を追加せずに効率的な実装が可能となる。
実証的に、PROMAはGRPOよりも局所的なKL分岐の厳密な制御を強制し、より安定した政策学習をもたらす。
PPOやGRPOとは異なり、PRMAはエントロピー崩壊を引き起こすことなく近位更新を達成し、参照ポリシーや確率比クリッピングに依存しない。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - A KL-regularization framework for learning to plan with adaptive priors [1.0246259631050245]
政策最適化モデル予測制御(PO-MPC)を導入する。
PO-MPCは、政策最適化の先駆けとしてプランナーの行動分布を統合する。
実験により,これらの拡張構成により,大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-10-05T16:45:38Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。