論文の概要: Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward
- arxiv url: http://arxiv.org/abs/2509.01321v1
- Date: Mon, 01 Sep 2025 10:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.634657
- Title: Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward
- Title(参考訳): 検証可能なリワードを用いた強化学習における高効率化に向けて
- Authors: Xinyu Tang, Zhenduo Zhang, Yurou Liu, Wayne Xin Zhao, Zujie Wen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
- 参考スコア(独自算出の注目度): 54.708851958671794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large reasoning models have leveraged reinforcement learning with verifiable rewards (RLVR) to improve reasoning capabilities. However, scaling these methods typically requires extensive rollout computation and large datasets, leading to high training costs and low data efficiency. To mitigate this issue, we propose DEPO, a Data-Efficient Policy Optimization pipeline that combines optimized strategies for both offline and online data selection. In the offline phase, we curate a high-quality subset of training samples based on diversity, influence, and appropriate difficulty. During online RLVR training, we introduce a sample-level explorability metric to dynamically filter samples with low exploration potential, thereby reducing substantial rollout computational costs. Furthermore, we incorporate a replay mechanism for under-explored samples to ensure adequate training, which enhances the model's final convergence performance. Experiments across five reasoning benchmarks show that DEPO consistently outperforms existing methods in both offline and online data selection scenarios. Notably, using only 20% of the training data, our approach achieves a 1.85 times speed-up on AIME24 and a 1.66 times speed-up on AIME25 compared to GRPO trained on the full dataset.
- Abstract(参考訳): 大規模推論モデルの最近の進歩は、推論能力を改善するために、強化学習と検証可能な報酬(RLVR)を活用している。
しかし、これらのメソッドのスケーリングは通常、広範なロールアウト計算と大規模なデータセットを必要とし、高いトレーニングコストと低いデータ効率をもたらす。
この問題を軽減するために、オフラインとオンラインの両方で最適化された戦略を組み合わせた、データ効率のよいポリシー最適化パイプラインであるDEPOを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入し、ロールアウト計算コストを大幅に削減する。
さらに,未探索サンプルの再生機構を組み込んで適切なトレーニングを行い,モデルの最終収束性能を向上させる。
5つの推論ベンチマークによる実験によると、DEPOはオフラインとオンライン両方のデータ選択シナリオにおいて、既存のメソッドを一貫して上回っている。
トレーニングデータの20%しか使用せず,AIME24では1.85倍,AIME25では1.66倍のスピードアップを達成した。
関連論文リスト
- Influence Guided Sampling for Domain Adaptation of Text Retrievers [14.654097843593098]
汎用的なオープンドメイン密度検索システムは、通常、コーパスとサーチタスクの大規模なエクレクティックな混合で訓練される。
トレーニングデータサンプリング戦略がモデルの性能に大きな影響を与えることはよく知られている。
Inf-DDSは、インフルエンサーベース報酬信号によって導かれるトレーニングデータセットを適応的に反映する、新しい強化学習駆動サンプリングフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T14:14:29Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Data-Efficient RLVR via Off-Policy Influence Guidance [84.60336960383867]
本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
textbfCurriculum textbfRL with textbfOff-textbfPolicy textInfluence Guide (textbfCROPI) は多段階のRLフレームワークで、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する。
論文 参考訳(メタデータ) (2025-10-30T13:40:52Z) - Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。
9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。
我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文 参考訳(メタデータ) (2025-10-07T22:30:59Z) - LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data [32.7248232143849]
オフラインデータの活用は、オンライン強化学習(RL)のサンプル効率を向上させるための有望な方法である
本稿では、報酬のない、混合品質の豊富な非キュレートデータを利用して、オフラインからオフラインへのRLのための使用可能なデータのプールを拡張し、複数の実施形態にまたがって収集する。
論文 参考訳(メタデータ) (2025-02-26T20:34:29Z) - Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [3.2288603733409498]
条件拡散モデルを適応可能な行動として扱う政策枠組みを厳格に提示する。
前者はログ化されたデータに基づいて事前訓練され、サンプリング時にのみオンラインで、現在のポリシーステートでのアクションの提案に使用される。
以上の結果から,事前の適応的拡散行動は,緊密な相互作用予算の下での政策PPOを強化するための実践的な方法であることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。