論文の概要: XRPO: Pushing the limits of GRPO with Targeted Exploration and Exploitation
- arxiv url: http://arxiv.org/abs/2510.06672v2
- Date: Thu, 09 Oct 2025 01:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.57864
- Title: XRPO: Pushing the limits of GRPO with Targeted Exploration and Exploitation
- Title(参考訳): XRPO: ターゲット探査と爆発によるGRPOの限界を押し上げる
- Authors: Udbhav Bamba, Minghao Fang, Yifan Yu, Haizhong Zheng, Fan Lai,
- Abstract要約: GRPOのような強化学習アルゴリズムは、大規模言語モデル(LLM)推論の最近の進歩を促している。
既存のアプローチは、挑戦的なプロンプトに対する限られた探索に悩まされ、情報的なフィードバック信号が未公開のまま残されている。
本稿では,eXplore-eXploit GRPOについて述べる。
- 参考スコア(独自算出の注目度): 8.511469090666077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms such as GRPO have driven recent advances in large language model (LLM) reasoning. While scaling the number of rollouts stabilizes training, existing approaches suffer from limited exploration on challenging prompts and leave informative feedback signals underexploited, due to context-independent rollout allocation across prompts (e.g., generating 16 rollouts per prompt) and relying heavily on sparse rewards. This paper presents XRPO(eXplore - eXploit GRPO), a unified framework that recasts policy optimization through the principled lens of rollout exploration-exploitation. To enhance exploration, XRPO introduces a mathematically grounded rollout allocator that adaptively prioritizes prompts with higher potential for uncertainty reduction. It further addresses stagnation on zero-reward prompts through an in-context seeding strategy that injects curated exemplars, steering the model into more difficult reasoning trajectories. To strengthen exploitation, XRPO develops a group-relative, novelty-aware advantage sharpening mechanism that leverages sequence likelihoods to amplify low-probability yet correct responses, thereby extending the policy's reach beyond sparse rewards. Experiments across diverse math and coding benchmarks on both reasoning and non-reasoning models demonstrate that XRPO outperforms existing advances (e.g., GRPO and GSPO) up to 4% pass@1 and 6% cons@32, while accelerating training convergence by up to 2.7X.
- Abstract(参考訳): GRPOのような強化学習アルゴリズムは、大規模言語モデル(LLM)推論の最近の進歩を促している。
トレーニングを安定化させるロールアウトの数を拡大する一方で、既存のアプローチでは、プロンプト(例えば、プロンプト毎に16ロールアウトを生成する)間のコンテキストに依存しないロールアウト割り当てや、スパース報酬に大きく依存するため、挑戦的なプロンプトの探索や、情報的フィードバック信号の未公開化が制限されている。
本稿では, ロールアウト探索・探索の原理的レンズを通して, 政策最適化をリキャストする統一的なフレームワークであるXRPO(eXplore - eXploit GRPO)を提案する。
探索を強化するため、XRPOは不確実性低減のための高い確率でプロンプトを適応的に優先順位付けする数学的に接地されたロールアウトアロケータを導入した。
さらに、ゼロ・リワードのプロンプトの停滞に対処するため、コンテクスト内でのシード戦略により、キュレートされた例題を注入し、モデルをより難しい推論軌道に操縦する。
エクスプロイトを強化するために、XRPOは、シーケンスの確率を利用して低確率で正しい応答を増幅し、スパース報酬を超えてポリシーの範囲を広げるグループ相対的で、新規性に配慮した有利なシャープニングメカニズムを開発した。
XRPOは推論モデルと非推論モデルの両方で様々な数学とコーディングベンチマーク実験を行い、既存の進歩(例えばGRPOとGSPO)を4%パス@1と6%cons@32に上回り、トレーニング収束を最大2.7倍に加速することを示した。
関連論文リスト
- Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration [8.839121572048018]
より広範に焦点を絞った探索を促進するアルゴリズムであるRAPOを提案する。
8K SimpleRL-Zeroデータセット上で,RAPOを用いてQwen2.5-3Bと7Bモデルをトレーニングする。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-10-04T16:22:19Z) - $\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラ-GRPO(textG2$RPO)フレームワークを提案する。
また、複数の拡散スケールで計算された利点を集約し、サンプリング方向をより包括的かつ堅牢に評価するマルチグラニュラリティ・アドバンテージ統合モジュールも導入する。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - Exploration by Random Reward Perturbation [6.293868056239738]
強化学習のための新しい探索戦略であるRandom Reward Perturbation(RRP)を紹介する。
環境報酬にゼロ平均ノイズを加えることで、トレーニング中の政策の多様性が効果的に向上することを示す。
RRPは、$epsilon$-greedy、ポリシー、エントロピー正規化といったアクション摂動に基づく探索戦略と完全に互換性がある。
論文 参考訳(メタデータ) (2025-06-10T12:34:00Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。