論文の概要: WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2602.17025v1
- Date: Thu, 19 Feb 2026 02:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.606557
- Title: WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning
- Title(参考訳): WS-GRPO: ロールアウト効率の良い推論のためのグループ関連ポリシー最適化
- Authors: Gagan Mundada, Zihan Huang, Rohan Surana, Sheldon Yu, Jennifer Yuntong Zhang, Xintong Li, Tong Yu, Lina Yao, Jingbo Shang, Julian McAuley, Junda Wu,
- Abstract要約: グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
- 参考スコア(独自算出の注目度): 67.45237332694025
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) is effective for training language models on complex reasoning. However, since the objective is defined relative to a group of sampled trajectories, extended deliberation can create more chances to realize relative gains, leading to inefficient reasoning and overthinking, and complicating the trade-off between correctness and rollout efficiency. Controlling this behavior is difficult in practice, considering (i) Length penalties are hard to calibrate because longer rollouts may reflect harder problems that require longer reasoning, penalizing tokens risks truncating useful reasoning along with redundant continuation; and (ii) supervision that directly indicates when to continue or stop is typically unavailable beyond final answer correctness. We propose Weakly Supervised GRPO (WS-GRPO), which improves rollout efficiency by converting terminal rewards into correctness-aware guidance over partial trajectories. Unlike global length penalties that are hard to calibrate, WS-GRPO trains a preference model from outcome-only correctness to produce prefix-level signals that indicate when additional continuation is beneficial. Thus, WS-GRPO supplies outcome-derived continue/stop guidance, reducing redundant deliberation while maintaining accuracy. We provide theoretical results and empirically show on reasoning benchmarks that WS-GRPO substantially reduces rollout length while remaining competitive with GRPO baselines.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は複雑な推論の言語モデルを訓練するのに有効である。
しかし、目的はサンプリングされた軌道群に対して定義されるため、拡張された検討は相対的な利得を実現する機会を増やし、非効率な推論と再考をもたらし、正しさとロールアウト効率のトレードオフを複雑化する。
この行動を制御することは、実際は難しい。
一 長期のロールアウトは、長期の推論を必要とする困難な問題を反映し得るため、長期の罰則の校正が困難であること。
二 継続又は停止すべき時期を指示する監督は、通常、最終回答の正当性を超えない。
Weakly Supervised GRPO (WS-GRPO) を提案する。
キャリブレーションが難しいグローバルな長さのペナルティとは異なり、WS-GRPOは結果のみの正確性から選好モデルを訓練し、追加の継続が有益であることを示すプレフィックスレベルの信号を生成する。
したがって、WS-GRPOは結果由来の継続/停止ガイダンスを提供し、正確性を維持しながら冗長な検討を減らす。
提案手法は,WS-GRPOがGRPOベースラインと競合しながら,ロールアウト期間を大幅に短縮することを示す。
関連論文リスト
- Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - AMIR-GRPO: Inducing Implicit Preference Signals into GRPO [15.759757442328388]
強化学習は、複雑な推論タスクにおいて、大きな言語モデルを整合させる主要なパラダイムとなっている。
GRPOは大規模なポストトレーニングで広く使用されているが、推論と重大な設定では構造的な制限に直面している。
AMIR-GRPOは、グループ内報酬ランキングから直接構築された暗黙のDPOスタイルのコントラスト正規化器でGRPOを増強する。
論文 参考訳(メタデータ) (2026-01-07T07:22:58Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization [37.96314154235252]
本稿では,正しいロールアウトの時間に基づく学習信号を,不正なロールアウトから切り離す新しいフレームワークを提案する。
1.5Bモデルでは,単純な質問に対して1.1%の性能損失しか得られず,77%の長さ削減を実現している。
論文 参考訳(メタデータ) (2025-10-06T04:18:13Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。