論文の概要: SALT: When More Rollouts Don't Help in Group-Based Policy Optimization and How to Make Them Matter
- arxiv url: http://arxiv.org/abs/2606.05800v1
- Date: Thu, 04 Jun 2026 07:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.623467
- Title: SALT: When More Rollouts Don't Help in Group-Based Policy Optimization and How to Make Them Matter
- Title(参考訳): SALT: グループベースの政策最適化により多くのロールアウトが役に立たない場合と課題
- Authors: Powei Chang, Jinpeng Zhang, Chaoqun Sun, MiniWell Tsao, Lianrui Li, Jianxiang Xiang, Chenyu Wang, Yukang Gao, Dongying Kong,
- Abstract要約: 検証可能な報酬による強化学習は、GRPOスタイルのグループ関連更新を採用することが多い。
GRPOスタイルの群正規化の下では、ロールアウトポリシー段階の特徴はローランクな符号付き幾何に集中することができる。
サブスペース適応幾何学 pLug-in componenT である SALT を用いて,この障害モードに対処する。
- 参考スコア(独自算出の注目度): 9.506175719110136
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) often adopts GRPO-style group-relative updates, sampling multiple rollouts per prompt to construct normalized learning signals. However, merely increasing the number of rollouts does not reliably strengthen learning: under GRPO-style group normalization, per-rollout policy-gradient features can concentrate into a low-rank, signed geometry, causing substantial cancellation during aggregation and weakening the effective update. We address this failure mode with SALT, a Subspace-Adaptive geometry pLug-in componenT that uses sample-wise gradient geometry to reweight the coefficients of group-relative updates. SALT estimates a dominant shared subspace from the mini-batch Gram geometry, decomposes group-relative coefficients into shared and residual channels, and adaptively amplifies the residual channel when signed cancellation is severe. Across diverse reasoning-oriented RLVR benchmarks and model scales, SALT improves effective update geometry and performance without modifying the reward model or the rollout sampling procedure
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、GRPOスタイルのグループ関係更新を採用し、プロンプト毎に複数のロールアウトをサンプリングし、正規化学習信号を構成する。
しかし、単にロールアウトの数を増やすだけでは学習が確実に強化されない:GRPOスタイルの群正規化の下では、ロールアウトごとのポリシー段階の機能はローランクで署名された幾何学に集中でき、集約中に大幅にキャンセルされ、効果的な更新が弱まる。
本稿では,サブスペース適応幾何 pLug-in コンポネンT を用いて,グループ相対更新係数の重み付けを行う。
SALTは、ミニバッチグラム幾何から支配的な共有部分空間を推定し、グループ相対係数を共有チャネルと残留チャネルに分解し、符号付きキャンセルが厳しい場合には残留チャネルを適応的に増幅する。
多様な推論指向RLVRベンチマークとモデルスケールにわたって、SALTは報酬モデルやロールアウトサンプリング手順を変更することなく、効率的な更新幾何学と性能を改善した。
関連論文リスト
- Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective [10.958642517467721]
RLVRにおけるコントラストシーケンスレベルのポリシー最適化のためのフレームワークを提案する。
ConSPOはGRPOのクリップされた比率ベースのスコアを、長さ正規化されたシーケンスログ確率に置き換える。
ConSPOは、挑戦的な数学的推論ベンチマークにおいて、いくつかの強力なRLVRベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-13T04:02:36Z) - Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping [66.25536973294726]
テキスト・トゥ・イメージ(T2I)モデルのポストトレーニング手法はハッキングに報いる傾向がある。
SLAS(Super-Linear Advantage Shaping)は、地方政策の分野を再考する。
SLASは、DanceGRPOベースラインを複数のバックボーンとベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-11T17:59:25Z) - Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation [8.54123828673921]
本稿では,リストワイド生成レコメンデーションに適した統一最適化フレームワークを提案する。
シーケンスレベルの信号デカップリング: 幾何平均的重要性比と分離された多目的の利点を組み合わせることにより、トークンレベルの分散を排除します。
非対称適応ダイナミクス: 超線形更新を実現するために、高強度冷間開始項目に「ブーストファクタ」を適用した動的勾配多様体を構築する。
論文 参考訳(メタデータ) (2026-01-29T09:30:13Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。