論文の概要: InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models
- arxiv url: http://arxiv.org/abs/2509.22536v1
- Date: Fri, 26 Sep 2025 16:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.576678
- Title: InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models
- Title(参考訳): InfiR2: 推論強化言語モデルのための総合的なFP8トレーニングレシピ
- Authors: Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Yuan Xie, Hongxia Yang,
- Abstract要約: 本稿では、連続的な事前学習と教師付き微調整をシームレスに統合するエンドツーエンドのFP8トレーニングレシピを提案する。
我々は,FP8をBF16の実用的で堅牢な代替品として確立し,大規模モデルトレーニングをさらに民主化するためのコードをリリースする。
- 参考スコア(独自算出の注目度): 40.36910516406322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The immense computational cost of training Large Language Models (LLMs) presents a major barrier to innovation. While FP8 training offers a promising solution with significant theoretical efficiency gains, its widespread adoption has been hindered by the lack of a comprehensive, open-source training recipe. To bridge this gap, we introduce an end-to-end FP8 training recipe that seamlessly integrates continual pre-training and supervised fine-tuning. Our methodology employs a fine-grained, hybrid-granularity quantization strategy to maintain numerical fidelity while maximizing computational efficiency. Through extensive experiments, including the continue pre-training of models on a 160B-token corpus, we demonstrate that our recipe is not only remarkably stable but also essentially lossless, achieving performance on par with the BF16 baseline across a suite of reasoning benchmarks. Crucially, this is achieved with substantial efficiency improvements, including up to a 22% reduction in training time, a 14% decrease in peak memory usage, and a 19% increase in throughput. Our results establish FP8 as a practical and robust alternative to BF16, and we will release the accompanying code to further democratize large-scale model training.
- Abstract(参考訳): LLM(Large Language Models)のトレーニングの膨大な計算コストは、イノベーションの大きな障壁となります。
FP8トレーニングは、理論的な効率性を大幅に向上させる有望なソリューションを提供するが、その普及は、包括的なオープンソースのトレーニングレシピの欠如によって妨げられている。
このギャップを埋めるために、連続的な事前学習と教師付き微調整をシームレスに統合するエンドツーエンドのFP8トレーニングレシピを導入する。
本手法では,計算効率を最大化しつつ,数値忠実度を維持するために,粒度を細かくしたハイブリッド・グラニュラリティ量子化戦略を用いる。
160Bコーパスでのモデル事前学習を含む広範囲な実験を通じて、我々のレシピは驚くほど安定しているだけでなく、本質的に損失のないものであり、一連の推論ベンチマークでBF16ベースラインと同等のパフォーマンスを達成していることを示す。
トレーニング時間の最大22%削減、ピークメモリ使用量の14%削減、スループットの19%向上などだ。
我々は,FP8をBF16の実用的で堅牢な代替品として確立し,大規模モデルトレーニングをさらに民主化するためのコードをリリースする。
関連論文リスト
- Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。
これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。
このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文 参考訳(メタデータ) (2024-11-10T15:19:42Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。