論文の概要: FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
- arxiv url: http://arxiv.org/abs/2503.17287v1
- Date: Fri, 21 Mar 2025 16:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:17.709863
- Title: FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
- Title(参考訳): FastCuRL: 効率的なR1型推論モデルのためのプログレッシブコンテキスト拡張によるカリキュラム強化学習
- Authors: Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang,
- Abstract要約: textbftextscFastCuRLは2つの主要な手順で構成されている。
textbftextscFastCuRL-1.5B-Previewは5つのデータセットすべてでDeepScaleR-1.5B-Previewを上回っている。
- 参考スコア(独自算出の注目度): 28.351652568849286
- License:
- Abstract: In this paper, we propose \textbf{\textsc{FastCuRL}}, a simple yet efficient \textbf{Cu}rriculum \textbf{R}einforcement \textbf{L}earning approach with context window extending strategy to accelerate the reinforcement learning training efficiency for R1-like reasoning models while enhancing their performance in tackling complex reasoning tasks with long chain-of-thought rationales, particularly with a 1.5B parameter language model. \textbf{\textsc{FastCuRL}} consists of two main procedures: length-aware training data segmentation and context window extension training. Specifically, the former first splits the original training data into three different levels by the input prompt length, and then the latter leverages segmented training datasets with a progressively increasing context window length to train the reasoning model. Experimental results demonstrate that \textbf{\textsc{FastCuRL}}-1.5B-Preview surpasses DeepScaleR-1.5B-Preview across all five datasets (including MATH 500, AIME 2024, AMC 2023, Minerva Math, and OlympiadBench) while only utilizing 50\% of training steps. Furthermore, all training stages for FastCuRL-1.5B-Preview are completed using just a single node with 8 GPUs.
- Abstract(参考訳): 本稿では,R1-like推論モデルの強化学習訓練効率を向上し,特に1.5Bパラメータ言語モデルにおいて,複雑な推論タスクに長いチェーン・オブ・プリンシパルで対処する上での性能を高めつつ,コンテキストウィンドウの拡張戦略を用いた,シンプルで効率的な \textbf{Cu}rriculum \textbf{R}einforcement \textbf{L}earning アプローチを提案する。
\textbf{\textsc{FastCuRL}}は、長さ対応トレーニングデータセグメンテーションとコンテキストウィンドウ拡張トレーニングの2つの主要な手順で構成されている。
具体的には、前者は入力プロンプト長で元のトレーニングデータを3つの異なるレベルに分割し、後者は、段階的に増大するコンテキストウィンドウ長でセグメント化されたトレーニングデータセットを活用して、推論モデルをトレーニングする。
実験結果から, トレーニングステップの50%しか利用せず, 5つのデータセット(MATH 500, AIME 2024, AMC 2023, Minerva Math, Olympiad Benchなど)すべてで, \textbf{\textsc{FastCuRL}}-1.5B-PreviewがDeepScaleR-1.5B-Previewを上回っていることが明らかになった。
さらに、FastCuRL-1.5B-Previewのトレーニングステージはすべて、8つのGPUを持つ単一のノードで完了する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Adjoint sharding for very long context training of state space models [7.723642550918118]
随伴シャーディング(英: Adjoint sharding)は、訓練中のメモリ要求を桁違いに削減するシャーディング勾配計算を含む技法である。
提案手法は,1Mコンテキスト長トレーニングにおける1.27Bパラメータの大言語モデルを用いて,メモリ使用量を最大3倍に削減する。
これにより、トレーニング中の最大コンテキスト長を35Kトークンから5つのAWS P4インスタンスで構成されるトレーニングインフラストラクチャ上で100Kトークンに微調整することが可能になる。
論文 参考訳(メタデータ) (2025-01-01T01:10:59Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - CiT: Curation in Training for Effective Vision-Language Data [84.77867625605053]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。
CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。
我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文 参考訳(メタデータ) (2023-01-05T18:59:57Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。