論文の概要: Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model
- arxiv url: http://arxiv.org/abs/2603.25184v1
- Date: Thu, 26 Mar 2026 08:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.194454
- Title: Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model
- Title(参考訳): 移動エッジでの列車:大規模共振モデルの効率的なRL訓練のためのオンライン検証プロンプト選択
- Authors: Jiahao Wu, Ning Lu, Shengcai Liu, Kun Wang, Yanting Yang, Li Qing, Ke Tang,
- Abstract要約: HIVEは、データ効率の強化学習のためのデュアルステージフレームワークである。
我々は,HIVEが性能を損なうことなく,ロールアウト効率を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 12.851049183155482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become essential for post-training large language models (LLMs) in reasoning tasks. While scaling rollouts can stabilize training and enhance performance, the computational overhead is a critical issue. In algorithms like GRPO, multiple rollouts per prompt incur prohibitive costs, as a large portion of prompts provide negligible gradients and are thus of low utility. To address this problem, we investigate how to select high-utility prompts before the rollout phase. Our experimental analysis reveals that sample utility is non-uniform and evolving: the strongest learning signals concentrate at the ``learning edge", the intersection of intermediate difficulty and high uncertainty, which shifts as training proceeds. Motivated by this, we propose HIVE (History-Informed and online-VErified prompt selection), a dual-stage framework for data-efficient RL. HIVE utilizes historical reward trajectories for coarse selection and employs prompt entropy as a real-time proxy to prune instances with stale utility. By evaluating HIVE across multiple math reasoning benchmarks and models, we show that HIVE yields significant rollout efficiency without compromising performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)の推論作業に欠かせないものとなっている。
スケールアウトはトレーニングを安定させ、パフォーマンスを向上するが、計算オーバーヘッドは重要な問題である。
GRPOのようなアルゴリズムでは、プロンプトの大部分が無視可能な勾配を提供し、したがって実用性が低いため、プロンプト毎の複数のロールアウトが禁止コストを発生させる。
この問題に対処するために、ロールアウトフェーズの前に高ユーティリティプロンプトを選択する方法について検討する。
実験により,サンプルユーティリティは非一様かつ進化的であり,最強の学習信号は「学習エッジ」,中間的困難と高い不確実性の交点に集中し,学習が進むにつれて変化していくことが明らかとなった。
そこで我々はHIVE(History-Informed and online-VErified prompt selection)を提案する。
HIVEは、粗い選択に歴史的な報酬トラジェクトリを使用し、古いユーティリティでインスタンスをプルーするリアルタイムプロキシとしてプロンプトエントロピーを使用している。
複数の数学推論ベンチマークとモデルにまたがってHIVEを評価することにより,HIVEは性能を損なうことなく,ロールアウト効率を著しく向上することを示す。
関連論文リスト
- Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models [49.04912820721943]
強化学習(RL)ファインタニングは,大規模言語モデル(LLM)の推論能力を高める重要な手法となっている。
近年の進歩は、部分的に解決されたり、適度に難しい例にトレーニングを集中させるオンラインプロンプト選択手法の重要性を浮き彫りにしている。
本研究はDPS(Dynamics-Predictive Smpling)を提案する。DPS(Dynamics-Predictive Smpling)は,コストのかかるロールアウトに先立って,学習ダイナミクスを推定して情報的プロンプトを予測し,選択する。
論文 参考訳(メタデータ) (2026-03-11T15:31:14Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning [30.90778400005588]
検証可能な報酬に対する強化学習(RL)を用いた大規模言語モデルの訓練は、その推論能力を大幅に向上させる。
本稿では、学習効率を最大化するために、中間困難のトレーニング例を選択的に選択する適応型オンラインRLカリキュラムであるSPEED(Selective Prompting with Efficulty)を紹介する。
経験的に、我々の効率的な実装は、精度を劣化させることなく2倍から6倍高速なトレーニングをもたらし、手動チューニングを必要とせず、標準のRLアルゴリズムにシームレスに統合する。
論文 参考訳(メタデータ) (2025-06-10T17:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。