論文の概要: Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow
- arxiv url: http://arxiv.org/abs/2601.14243v1
- Date: Tue, 20 Jan 2026 18:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.459094
- Title: Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow
- Title(参考訳): Jet-RL: 統一トレーニングとロールアウト精度フローによるオンラインFP8強化学習の実現
- Authors: Haocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu,
- Abstract要約: 本研究は,FP8 RLトレーニングの総合的研究である。
安定かつ堅牢なRL最適化を実現するFP8 RLトレーニングフレームワークであるJet-RLを提案する。
- 参考スコア(独自算出の注目度): 48.48936574810267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is essential for enhancing the complex reasoning capabilities of large language models (LLMs). However, existing RL training pipelines are computationally inefficient and resource-intensive, with the rollout phase accounting for over 70% of total training time. Quantized RL training, particularly using FP8 precision, offers a promising approach to mitigating this bottleneck. A commonly adopted strategy applies FP8 precision during rollout while retaining BF16 precision for training. In this work, we present the first comprehensive study of FP8 RL training and demonstrate that the widely used BF16-training + FP8-rollout strategy suffers from severe training instability and catastrophic accuracy collapse under long-horizon rollouts and challenging tasks. Our analysis shows that these failures stem from the off-policy nature of the approach, which introduces substantial numerical mismatch between training and inference. Motivated by these observations, we propose Jet-RL, an FP8 RL training framework that enables robust and stable RL optimization. The key idea is to adopt a unified FP8 precision flow for both training and rollout, thereby minimizing numerical discrepancies and eliminating the need for inefficient inter-step calibration. Extensive experiments validate the effectiveness of Jet-RL: our method achieves up to 33% speedup in the rollout phase, up to 41% speedup in the training phase, and a 16% end-to-end speedup over BF16 training, while maintaining stable convergence across all settings and incurring negligible accuracy degradation.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に不可欠である。
しかし、既存のRLトレーニングパイプラインは計算的に非効率でリソース集約であり、ロールアウトフェーズは総トレーニング時間の70%以上を占める。
量子RLトレーニング、特にFP8精度の使用は、このボトルネックを軽減するための有望なアプローチを提供する。
一般的に採用されている戦略は、BF16の訓練精度を維持しながら、ロールアウト中にFP8の精度を適用している。
本研究は,FP8 RLトレーニングの総合的研究であり,広範に使用されているBF16トレーニング+FP8ロールアウト戦略が,長期のロールアウトおよび課題における厳しいトレーニング不安定性と破滅的な精度崩壊に悩まされていることを示す。
分析の結果、これらの失敗は、トレーニングと推論の間にかなりの数値的なミスマッチをもたらすアプローチの非政治的性質に起因していることが明らかとなった。
これらの観測により,安定かつ堅牢なRL最適化を実現するFP8 RLトレーニングフレームワークであるJet-RLを提案する。
鍵となる考え方は、トレーニングとロールアウトの両方に統一されたFP8精度フローを採用することである。
実験によりJet-RLの有効性が検証された。本手法はロールアウトフェーズで最大33%のスピードアップ、トレーニングフェーズで最大41%のスピードアップ、BF16トレーニングで16%のエンド・ツー・エンド・スピードアップを実現し、全ての設定に安定した収束を維持しつつ、無視できない精度の劣化を生じさせる。
関連論文リスト
- QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models [34.21089641502727]
本稿では、連続的な事前学習と教師付き微調整をシームレスに統合するエンドツーエンドのFP8トレーニングレシピを提案する。
我々は,FP8をBF16の実用的で堅牢な代替品として確立し,大規模モデルトレーニングをさらに民主化するためのコードをリリースする。
論文 参考訳(メタデータ) (2025-09-26T16:16:49Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。
これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。
このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文 参考訳(メタデータ) (2024-11-10T15:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。