論文の概要: SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning
- arxiv url: http://arxiv.org/abs/2506.09016v1
- Date: Tue, 10 Jun 2025 17:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.973112
- Title: SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning
- Title(参考訳): SPEED-RL:オンラインカリキュラム学習による推論モデルの高速学習
- Authors: Ruiqi Zhang, Daman Arora, Song Mei, Andrea Zanette,
- Abstract要約: 検証可能な報酬に対する強化学習(RL)を用いた大規模言語モデルの訓練は、その推論能力を大幅に向上させる。
本稿では、学習効率を最大化するために、中間困難のトレーニング例を選択的に選択する適応型オンラインRLカリキュラムであるSPEED(Selective Prompting with Efficulty)を紹介する。
経験的に、我々の効率的な実装は、精度を劣化させることなく2倍から6倍高速なトレーニングをもたらし、手動チューニングを必要とせず、標準のRLアルゴリズムにシームレスに統合する。
- 参考スコア(独自算出の注目度): 30.90778400005588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models with reinforcement learning (RL) against verifiable rewards significantly enhances their reasoning abilities, yet remains computationally expensive due to inefficient uniform prompt sampling. We introduce Selective Prompting with Efficient Estimation of Difficulty (SPEED), an adaptive online RL curriculum that selectively chooses training examples of intermediate difficulty to maximize learning efficiency. Theoretically, we establish that intermediate-difficulty prompts improve the gradient estimator's signal-to-noise ratio, accelerating convergence. Empirically, our efficient implementation leads to 2x to 6x faster training without degrading accuracy, requires no manual tuning, and integrates seamlessly into standard RL algorithms.
- Abstract(参考訳): 検証可能な報酬に対する強化学習(RL)を用いた大規模言語モデルの訓練は、推論能力を大幅に向上させるが、非効率な均一なプロンプトサンプリングのため、計算コストは高い。
本稿では、学習効率を最大化するために、中間困難のトレーニング例を選択的に選択する適応型オンラインRLカリキュラムであるSPEED(Selective Prompting with Efficulty)を紹介する。
理論的には、中間微分は勾配推定器の信号-雑音比を改善し、収束を加速させる。
経験的に、我々の効率的な実装は、精度を劣化させることなく2倍から6倍高速なトレーニングをもたらし、手動チューニングを必要とせず、標準のRLアルゴリズムにシームレスに統合する。
関連論文リスト
- Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
SuperRLは、オフライン監視を強化学習に適応的に組み込む統合トレーニングフレームワークである。
SuperRLは、スパース報酬の下でサンプル効率、一般化、堅牢性を向上させることで、標準強化学習を一貫して上回る。
論文 参考訳(メタデータ) (2025-06-01T17:43:54Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
オンラインDPOは、政治以外のデータに対して最も堅牢である。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Digital Twin Assisted Deep Reinforcement Learning for Online Admission
Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。
ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。
DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-10-07T09:09:19Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。