論文の概要: Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2511.04800v1
- Date: Thu, 06 Nov 2025 20:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.584105
- Title: Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models
- Title(参考訳): 言語モデル推論のための強化学習の背景にあるデータ探索
- Authors: Chenxi Liu, Junjie Liang, Yuqi Jia, Bochuan Cao, Yang Bai, Heng Huang, Xun Chen,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 61.78513830395669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for improving the reasoning abilities of large language models (LLMs). The Group Relative Policy Optimization (GRPO) family has demonstrated strong performance in training LLMs with RLVR. However, as models train longer and scale larger, more training prompts become residual prompts, those with zero variance rewards that provide no training signal. Consequently, fewer prompts contribute to training, reducing diversity and hindering effectiveness. To fully exploit these residual prompts, we propose the Explore Residual Prompts in Policy Optimization (ERPO) framework, which encourages exploration on residual prompts and reactivates their training signals. ERPO maintains a history tracker for each prompt and adaptively increases the sampling temperature for residual prompts that previously produced all correct responses. This encourages the model to generate more diverse reasoning traces, introducing incorrect responses that revive training signals. Empirical results on the Qwen2.5 series demonstrate that ERPO consistently surpasses strong baselines across multiple mathematical reasoning benchmarks.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
Group Relative Policy Optimization (GRPO)ファミリーは、LLMをRLVRでトレーニングする上で、強力なパフォーマンスを示している。
しかし、モデルがより長く、規模が大きくなるにつれて、訓練のプロンプトは残余のプロンプトとなる。
その結果、トレーニングに寄与するプロンプトが少なくなり、多様性が低下し、効果を阻害する。
これらの残余プロンプトを完全に活用するために,残余プロンプトの探索と学習信号の再活性化を促進するERPO(Explore Residual Prompts in Policy Optimization)フレームワークを提案する。
ERPOは各プロンプトに対してヒストリトラッカーを保持し、以前に全ての正しい応答を発生させた残差プロンプトのサンプリング温度を適応的に上昇させる。
これにより、モデルはより多様な推論トレースを生成し、トレーニング信号を復活させる誤った応答を導入する。
Qwen2.5シリーズの実証的な結果は、ERPOが複数の数学的推論ベンチマークで一貫して強いベースラインを超えることを示した。
関連論文リスト
- Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - No Free Lunch: Rethinking Internal Feedback for LLM Reasoning [12.881043910316787]
強化学習は、推論を改善するために大規模言語モデル(LLM)の訓練後において強力なパラダイムとして登場した。
内的フィードバック(RLIF)からの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は,外的報酬ではなく,本質的なモデル由来の信号にのみ依存する手法である。
論文 参考訳(メタデータ) (2025-06-20T17:59:52Z) - Lessons from Training Grounded LLMs with Verifiable Rewards [24.35637263339965]
強化学習と内部推論は、大きな言語モデルにおける基盤を強化することができる。
推論強化モデルは命令のみの変種よりも有意に優れていることを示す。
2段階のトレーニングセットアップで、まずは回答と引用の動作を最適化し、次に拒否し、グラウンド化をさらに改善する。
論文 参考訳(メタデータ) (2025-06-18T14:58:13Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。