論文の概要: FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
- arxiv url: http://arxiv.org/abs/2503.17287v2
- Date: Wed, 16 Apr 2025 15:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:36:50.693478
- Title: FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
- Title(参考訳): FastCuRL: 効率的なR1型推論モデルのためのプログレッシブコンテキスト拡張によるカリキュラム強化学習
- Authors: Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang,
- Abstract要約: 本稿では,モデルの文脈長とトレーニングデータセットの複雑さが,R1-likeモデルのトレーニングプロセスにどのように影響するかを検討する。
本稿では,プログレッシブコンテキスト拡張戦略を備えたカリキュラム強化学習フレームワークであるFastCuRLを提案する。
- 参考スコア(独自算出の注目度): 28.351652568849286
- License:
- Abstract: Improving the training efficiency remains one of the most significant challenges in large-scale reinforcement learning. In this paper, we investigate how the model's context length and the complexity of the training dataset influence the training process of R1-like models. Our experiments reveal three key insights: (1) adopting longer context lengths may not necessarily result in better performance; (2) selecting an appropriate context length helps mitigate entropy collapse; and (3) appropriately controlling the model's context length and curating training data based on input prompt length can effectively improve RL training efficiency, achieving better performance with shorter thinking length. Inspired by these insights, we propose FastCuRL, a curriculum reinforcement learning framework with the progressive context extension strategy, and successfully accelerate the training process of RL models. Experimental results demonstrate that FastCuRL-1.5B-Preview surpasses DeepScaleR-1.5B-Preview across all five benchmarks while only utilizing 50\% of training steps. Furthermore, all training stages for FastCuRL-1.5B-Preview are completed using a single node with 8 GPUs.
- Abstract(参考訳): 訓練効率の向上は、大規模な強化学習における最も重要な課題の1つである。
本稿では,モデルの文脈長とトレーニングデータセットの複雑さが,R1-likeモデルのトレーニングプロセスにどのように影響するかを検討する。
実験の結果,(1)より長い文脈長を採用すると必ずしも性能が向上するとは限らないこと,(2)適切な文脈長を選択することはエントロピーの崩壊を軽減すること,(3)入力プロンプト長に基づいてモデルのコンテキスト長を適切に制御し,トレーニングデータをキュレートすることで,RLトレーニング効率を効果的に向上し,より短い思考長で優れたパフォーマンスを実現すること,の3つの重要な知見が明らかになった。
これらの知見に触発されて、プログレッシブコンテキスト拡張戦略を備えたカリキュラム強化学習フレームワークであるFastCuRLを提案し、RLモデルのトレーニングプロセスの高速化に成功した。
実験の結果,FastCuRL-1.5B-Previewは5つのベンチマークでDeepScaleR-1.5B-Previewを上回っ,トレーニングステップの50%しか利用していないことがわかった。
さらに、FastCuRL-1.5B-Previewのトレーニングステージはすべて、8つのGPUを持つ単一ノードを使用して完了する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Adjoint sharding for very long context training of state space models [7.723642550918118]
随伴シャーディング(英: Adjoint sharding)は、訓練中のメモリ要求を桁違いに削減するシャーディング勾配計算を含む技法である。
提案手法は,1Mコンテキスト長トレーニングにおける1.27Bパラメータの大言語モデルを用いて,メモリ使用量を最大3倍に削減する。
これにより、トレーニング中の最大コンテキスト長を35Kトークンから5つのAWS P4インスタンスで構成されるトレーニングインフラストラクチャ上で100Kトークンに微調整することが可能になる。
論文 参考訳(メタデータ) (2025-01-01T01:10:59Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - CiT: Curation in Training for Effective Vision-Language Data [84.77867625605053]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。
CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。
我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文 参考訳(メタデータ) (2023-01-05T18:59:57Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。