Fugu-MT 論文翻訳(概要): Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR

論文の概要: Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR

arxiv url: http://arxiv.org/abs/2605.07114v1
Date: Fri, 08 May 2026 01:42:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.726917
Title: Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR
Title（参考訳）: グループベースのRLVRのための最適ロールアウトアロケーション
Authors: Tao Wang, Shuo Li, Yan Sun, Dongsheng Ding, Edgar Dobriban,
Abstract要約: グループベースのポリシー最適化手法は通常、各プロンプトに一定数のロールアウトを割り当てる。我々は、ヒットユーティリティを導入し、提案されたプロンプトの追加アロケーションにおける少なくとも1つのロールアウトが正しいという後続の確率について紹介する。本研究では,Hit-Utility Optimal Rollout Allocation (HORA)を提案する。
参考スコア（独自算出の注目度）: 25.35547462790362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a central paradigm for improving the reasoning capabilities of large language models. Group-based policy optimization methods, such as GRPO, typically allocate a fixed number of rollouts to every prompt. This uniform allocation can be inefficient: it over-allocates compute to prompts whose sampled groups are already saturated while under-exploring prompts for which additional samples may reveal useful correct trajectories. To address this limitation, we introduce hit utility, the posterior probability that at least one rollout in a proposed additional allocation for a prompt will be correct. Building on this notion, we propose Hit-Utility Optimal Rollout Allocation (HORA), a learning-free rollout allocation policy that maximizes total posterior hit utility within each allocation batch. HORA adaptively reallocates rollout budgets while leaving the downstream reward evaluation and group-based advantage estimator unchanged. Across four mathematical reasoning benchmarks and three model scales, HORA preserves comparable Pass@1 and improves Pass@K over compute-matched GRPO in ten of twelve model--benchmark configurations, with one tie and one saturated exception. It is also drop-in compatible with other group-based estimators such as RLOO. Ablation studies indicate that the uniform prior used by HORA is competitive with five prompt-conditioned learned-prior alternatives.
Abstract（参考訳）: 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力向上のための中心的なパラダイムとして登場した。 GRPOのようなグループベースのポリシー最適化手法は、通常、各プロンプトに一定数のロールアウトを割り当てる。この均一な割り当ては非効率であり、サンプリングされたグループが既に飽和しているプロンプトにオーバーアロケートし、追加のサンプルが有用な正しい軌道を示すプロンプトを探索する。この制限に対処するため、我々はヒットユーティリティを導入し、提案されたプロンプトの追加アロケーションにおける少なくとも1つのロールアウトが正しいことを示す。この概念に基づいて、各アロケーションバッチ内の全後続ヒットユーティリティを最大化する学習不要ロールアウトアロケーションポリシーであるHit-Utility Optimal Rollout Allocation (HORA)を提案する。 HORAは、下流の報酬評価とグループベースの利点推定器をそのまま残しながら、ロールアウト予算を適応的に再配置する。 4つの数学的推論ベンチマークと3つのモデルスケールで、HORAは同等のPass@1を保持し、12のモデル構成のうち10のモデルで計算マッチングされたGRPOよりもPass@Kを改善している。また、RLOOのような他のグループベースの推定器とも互換性がある。アブレーション研究は、HORAが以前に使用していた制服が、5つの素早い条件の学習優先の代替品と競合していることを示している。

関連論文リスト

Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文参考訳（メタデータ） (2026-04-20T16:43:28Z)
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文参考訳（メタデータ） (2026-04-14T09:48:46Z)
Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
Train Less, Learn More: Adaptive Efficient Rollout Optimization for Group-Based Reinforcement Learning [37.10958874118462]
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて中心的な役割を果たす。 GRPO では、各クエリは LLM に、固定されたグループサイズ$N$のロールアウトのグループを生成するように促す。グループ内のすべてのロールアウトが同じ結果を共有するとき、すべての正しいか不正確な場合、群正規化の利点はゼロとなる。本稿では GRPO の強化である AERO (Adaptive Efficient Rollout Optimization) を導入する。
論文参考訳（メタデータ） (2026-02-15T23:14:05Z)
Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。 6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文参考訳（メタデータ） (2026-02-09T10:51:58Z)
Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards [26.5011687714416]
既存のグループベースのポリシー最適化手法は、すべてのトレーニングプロンプトに対して一定数のロールアウトを割り当てる。この均一な割り当ては全てのプロンプトを等しく情報的扱いし、非効率的な計算予算の使用と訓練の進捗を妨げる可能性がある。本稿では、既存のバッチのプロンプトに所定のロールアウト予算を割り当て、ポリシー更新のグラデーションのばらつきを最小限に抑える可変インフォームド予測割当戦略であるVIPを紹介する。
論文参考訳（メタデータ） (2026-02-02T03:50:01Z)
From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。 RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文参考訳（メタデータ） (2026-01-30T15:07:06Z)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
OptPO: Optimal Rollout Allocation for Test-time Policy Optimization [11.375209834858135]
テスト時のポリシー最適化により、大規模言語モデルでは、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
論文参考訳（メタデータ） (2025-12-02T15:38:52Z)
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。 PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文参考訳（メタデータ） (2025-04-18T17:49:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。