論文の概要: ExGRPO: Learning to Reason from Experience
- arxiv url: http://arxiv.org/abs/2510.02245v1
- Date: Thu, 02 Oct 2025 17:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.254257
- Title: ExGRPO: Learning to Reason from Experience
- Title(参考訳): ExGRPO: 経験から推論を学ぶ
- Authors: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng,
- Abstract要約: 検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
- 参考スコア(独自算出の注目度): 82.83309610498446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
しかし、標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
RLに関する以前の研究は、過去の経験を再利用するメリットを強調してきたが、大きな推論モデルの学習力学を形作る際の経験的特性の役割は、まだ解明されていない。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
これらの知見に基づいて、我々は、価値ある経験を組織化し、優先順位付けするフレームワークであるExGRPO(Experiential Group Relative Policy Optimization)を提案し、経験の活用と探索のバランスをとるために、複合的な政治目標を採用する。
5つのバックボーンモデル(1.5B-8Bパラメータ)の実験は、ExGRPOが連続的に数学的/一般ベンチマークの推論性能を向上し、オンラインRLVRよりも平均3.5/7.6ポイント向上したことを示している。
さらに、ExGRPOは、オンラインの手法が失敗するより強いモデルと弱いモデルのトレーニングを安定化する。
これらの結果は、効率よくスケーラブルなRLVRの鍵となる要素として、経験管理の原則を浮き彫りにした。
関連論文リスト
- Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models [47.05227816684691]
推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。
高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。
我々は,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロの利点値を維持することを保証する。
論文 参考訳(メタデータ) (2025-09-30T17:58:34Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。
LLM は RFT に非常に矛盾しない応答が可能である。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。