論文の概要: Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts
- arxiv url: http://arxiv.org/abs/2506.02177v1
- Date: Mon, 02 Jun 2025 19:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.986778
- Title: Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts
- Title(参考訳): 支払い時のみの行為:選択的ロールアウトによるLLM推論のための効率的な強化学習
- Authors: Haizhong Zheng, Yang Zhou, Brian R. Bartoldson, Bhavya Kailkhura, Fan Lai, Jiawei Zhao, Beidi Chen,
- Abstract要約: ロールアウト前に非形式的なプロンプトをスキップすることで,計算オーバーヘッドのかなりの部分が回避可能であることを示す。
我々は,非形式的プロンプトを予測・スキップするオンライン軽量プリロールアウトフィルタリングアルゴリズムであるGRESOを提案する。
GRESOは, ロールアウト時に最大2.4倍, トレーニング時間全体で最大2.0倍の高速化を達成でき, 精度は低下しない。
- 参考スコア(独自算出の注目度): 28.17839625646103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning, such as PPO and GRPO, has powered recent breakthroughs in LLM reasoning. Scaling rollout to sample more prompts enables models to selectively use higher-quality data for training, which can stabilize RL training and improve model performance. However, this comes at the cost of significant computational overhead. In this paper, we show that a substantial portion of this overhead can be avoided by skipping uninformative prompts before rollout. Our analysis of reward dynamics reveals a strong temporal consistency in prompt value: prompts that are uninformative in one epoch of training are likely to remain uninformative in future epochs. Based on these insights, we propose GRESO (GRPO with Efficient Selective Rollout), an online, lightweight pre-rollout filtering algorithm that predicts and skips uninformative prompts using reward training dynamics. By evaluating GRESO on a broad range of math reasoning benchmarks and models, such as Qwen2.5-Math-1.5B, DeepSeek-R1-Distill-Qwen-1.5B, and Qwen2.5-Math-7B, we show that GRESO achieves up to 2.4x wall-clock time speedup in rollout and up to 2.0x speedup in total training time without accuracy degradation.
- Abstract(参考訳): PPOやGRPOといった強化学習は、最近のLSM推論のブレークスルーに力を入れている。
サンプルのロールアウトを拡大することで、トレーニングに高品質なデータを選択的に使用することが可能になり、RLトレーニングの安定化とモデルパフォーマンスの向上が可能になる。
しかし、これは計算オーバーヘッドがかなり大きいためである。
本稿では,ロールアウト前に非形式的なプロンプトをスキップすることで,このオーバーヘッドのかなりの部分が回避可能であることを示す。
報酬力学を解析したところ、即時値の時間的一貫性が強く示され、ある訓練のエポックで非形式的であるプロンプトは、将来のエポックでは非形式的である可能性が示唆された。
これらの知見に基づいて、報奨トレーニングのダイナミクスを用いて非形式的プロンプトを予測・スキップするオンラインの軽量プリロールアウトフィルタリングアルゴリズムであるGRESO(GRPO with Efficient Selective Rollout)を提案する。
GRESOは,Qwen2.5-Math-1.5B,DeepSeek-R1-Distill-Qwen-1.5B,Qwen2.5-Math-7Bなど,幅広い数学推論ベンチマークやモデルを用いて評価することにより,GRESOがロールアウト時の最大2.4倍,精度劣化のない総トレーニング時間における最大2.0倍の高速化を実現することを示す。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Understanding R1-Zero-Like Training: A Critical Perspective [38.515771096651356]
ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討した。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
AIME 2024では7Bベースモデルで43.3%の精度を達成できる最小限のR1-Zeroレシピを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:14Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Early Weight Averaging meets High Learning Rates for LLM Pre-training [20.671831210738937]
高い学習率で訓練されたモデルは、チェックポイント平均化により、より高い利得を観測できることを示す。
トレーニングレシピは、従来のトレーニングと一般的なチェックポイント平均基準よりも優れています。
論文 参考訳(メタデータ) (2023-06-05T20:51:44Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。