論文の概要: PROMA: Projected Microbatch Accumulation for Reference-Free Proximal Policy Updates
- arxiv url: http://arxiv.org/abs/2601.10498v2
- Date: Thu, 22 Jan 2026 03:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.298804
- Title: PROMA: Projected Microbatch Accumulation for Reference-Free Proximal Policy Updates
- Title(参考訳): PROMA: 参照不要ポリシー更新のためのマイクロバッチ蓄積の計画
- Authors: Nilin Abrahamsen,
- Abstract要約: PROMAは、確率比に依存するのではなく、マイクロバッチ全体にわたる勾配の蓄積を修飾する。
蓄積中、ProMAは部分的に蓄積された勾配を現在のマイクロバッチのシーケンスワイド勾配に投影する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This note introduces Projected Microbatch Accumulation (PROMA), a proximal policy method that modifies gradient accumulation across microbatches rather than relying on likelihood ratios relative to a reference policy. During accumulation, PROMA projects the partially accumulated gradient to be orthogonal to the sequence-wise gradients of the current microbatch. This projection is applied layer-wise during the backward pass, enabling efficient implementation. Empirically, PROMA achieves proximal updates without entropy collapse while providing tighter local KL control than GRPO.
- Abstract(参考訳): 本報告では, マイクロバッチ集積法 (PROMA) について紹介する。これは, 参照ポリシーに対する確率比に依存するのではなく, マイクロバッチ全体にわたる勾配の蓄積を近似的に調整する手法である。
蓄積中、ProMAは部分的に蓄積された勾配を現在のマイクロバッチのシーケンスワイド勾配に直交するように予測する。
このプロジェクションは後方通過中に層単位で適用され、効率的な実装を可能にする。
実証的には、 ProMA はエントロピー崩壊のない近位更新を実現し、GRPO よりも強い局所的な KL 制御を提供する。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - A KL-regularization framework for learning to plan with adaptive priors [1.0246259631050245]
政策最適化モデル予測制御(PO-MPC)を導入する。
PO-MPCは、政策最適化の先駆けとしてプランナーの行動分布を統合する。
実験により,これらの拡張構成により,大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-10-05T16:45:38Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。