論文の概要: FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.18150v1
- Date: Mon, 26 Jan 2026 05:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.684197
- Title: FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning
- Title(参考訳): FP8-RL: LLM強化学習のための実用的で安定な低精度スタック
- Authors: Zhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のための実用的なFP8ロールアウトスタックを提案する。
i)ブロックワイズFP8量子化を用いてFP8 W8A8リニア層ロールアウトを実現し、(ii)FP8をKVキャッシュに拡張して長文メモリボトルネックを解消し、(iii)重要度に基づくロールアウト補正によるミスマッチを緩和する。
高密度モデルとMoEモデル全体で、これらのテクニックは、BF16ベースラインに匹敵する学習行動を保ちながら、最大44%のロールアウトスループットゲインを提供する。
- 参考スコア(独自算出の注目度): 12.855945066222743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)は、長い出力シーケンスの長さが注目され、KVキャッシュメモリがエンドツーエンドのステップタイムを支配しているロールアウト(世代)によって、ますますボトルネックになっている。
FP8は、ロールアウト中に計算コストとメモリトラフィックを削減してRLを加速する魅力的なレバーを提供するが、RLにFP8を適用すると、ポリシーウェイトが全ステップを変更(推論エンジンに繰り返し量子化と重み同期を要求する)し、低精度ロールアウトはトレーナーが想定する高精度なポリシーから逸脱し、列車の干渉ミスマッチと潜在的な不安定さを引き起こすという、ユニークなエンジニアリングとアルゴリズムの課題が導入される。
本稿では、一般的なトレーニングバックエンド(FSDP/Megatron-LM)と推論エンジン(例えば、vLLM/SGLang)をサポートするveRLエコシステムに実装されたLLM RL用の実用的なFP8ロールアウトスタックを提案する。
我が家
i)ブロックワイズFP8量子化を用いたFP8 W8A8線形層ロールアウトの実現。
(ii) FP8 を KV-cache に拡張し、ステップごとのQKVスケール再校正による長期コンテキストメモリボトルネックを除去し、
三 重要サンプリングに基づくロールアウト補正(トークンレベルTIS/MIS変種)によるミスマッチの軽減。
高密度モデルとMoEモデル全体で、これらのテクニックは、BF16ベースラインに匹敵する学習行動を保ちながら、最大44%のロールアウトスループットゲインを提供する。
関連論文リスト
- QuRL: Efficient Reinforcement Learning with Quantized Rollout [23.326106976928898]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の学習におけるトレンドパラダイムとなっている。
LLMの自己回帰復号性のため、ロールアウトプロセスはRLトレーニングの効率ボトルネックとなり、総トレーニング時間の最大70%を占める。
本稿では,Quantized Reinforcement Learning(QuRL)を提案する。
論文 参考訳(メタデータ) (2026-02-15T01:48:10Z) - Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow [48.48936574810267]
本研究は,FP8 RLトレーニングの総合的研究である。
安定かつ堅牢なRL最適化を実現するFP8 RLトレーニングフレームワークであるJet-RLを提案する。
論文 参考訳(メタデータ) (2026-01-20T18:54:31Z) - MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling [29.545879706181974]
現在のフレームワークは、混合粒度量子化、すなわちアクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。
効率と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
論文 参考訳(メタデータ) (2025-11-08T02:51:26Z) - FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error [3.281844093101284]
大規模なMixture-of-Experts(MoE)モデルのトレーニングは、極端な計算とメモリ要求のため、計算的に禁じられている。
FP8-Flow-MoEは,スケールアウェア計算と融合したFP8演算子を備えた量子化一貫性FP8中心のデータフローを特徴とする学習レシピである。
論文 参考訳(メタデータ) (2025-11-04T06:36:59Z) - QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。