Fugu-MT 論文翻訳(概要): Towards Fully FP8 GEMM LLM Training at Scale

論文の概要: Towards Fully FP8 GEMM LLM Training at Scale

arxiv url: http://arxiv.org/abs/2505.20524v1
Date: Mon, 26 May 2025 21:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.295788
Title: Towards Fully FP8 GEMM LLM Training at Scale
Title（参考訳）: 大規模FP8 GEMM LLMトレーニングに向けて
Authors: Alejandro Hernández-Cano, Dhia Garbaya, Imanol Schlag, Martin Jaggi,
Abstract要約: 既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
参考スコア（独自算出の注目度）: 77.39425361120466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the significant potential of FP8 data formats for large language model (LLM) pre-training, their adoption has been limited due to challenges in maintaining stability at scale. Existing approaches often rely on suboptimal fine-grained FP8 kernels or fall back to higher-precision matrix multiplications (GEMMs) in sensitive components, such as attention projections, compromising potential throughput gains. We introduce a new class of LLM architectures that, for the first time, support FP8 computation for all GEMMs within transformer blocks during both forward and backward passes. This enables unprecedented throughput gains, particularly at scale, while matching the downstream performance of standard BF16 training. Our architecture design reduces large outlier activations, promoting stable long-term FP8 training. In addition, we identify key metrics to monitor low-precision training and predict potential future divergences.
Abstract（参考訳）: 大規模言語モデル(LLM)事前トレーニングのためのFP8データフォーマットの潜在的な可能性にもかかわらず、その採用は大規模な安定性を維持する上での課題のために制限されている。既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、アテンション・プロジェクションや潜在的なスループット向上の妥協など、敏感なコンポーネントにおけるより高精度な行列乗算(GEMM)に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。アーキテクチャ設計は、大規模な外部アクティベーションを低減し、安定した長期FP8トレーニングを促進する。さらに、低精度のトレーニングを監視し、将来的な分岐を予測するための重要な指標を同定する。

関連論文リスト

FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning [12.855945066222743]
本稿では,大規模言語モデル(LLM)のための実用的なFP8ロールアウトスタックを提案する。 i)ブロックワイズFP8量子化を用いてFP8 W8A8リニア層ロールアウトを実現し、(ii)FP8をKVキャッシュに拡張して長文メモリボトルネックを解消し、(iii)重要度に基づくロールアウト補正によるミスマッチを緩和する。高密度モデルとMoEモデル全体で、これらのテクニックは、BF16ベースラインに匹敵する学習行動を保ちながら、最大44%のロールアウトスループットゲインを提供する。
論文参考訳（メタデータ） (2026-01-26T05:12:05Z)
MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling [29.545879706181974]
現在のフレームワークは、混合粒度量子化、すなわちアクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。効率と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
論文参考訳（メタデータ） (2025-11-08T02:51:26Z)
Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文参考訳（メタデータ） (2025-09-29T17:53:17Z)
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。 FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文参考訳（メタデータ） (2025-02-17T05:33:11Z)
An Inquiry into Datacenter TCO for LLM Inference with FP8 [7.910301381209274]
大規模言語モデル(LLM)の計算特性と制約をTCOの観点から解析する。多様な運用要件に応じて,CSPがAIアクセラレータを比較選択できる汎用フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-03T05:26:22Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文参考訳（メタデータ） (2025-01-05T02:30:41Z)
Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文参考訳（メタデータ） (2024-11-10T15:19:42Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文参考訳（メタデータ） (2024-05-29T02:42:23Z)
FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文参考訳（メタデータ） (2023-10-27T17:59:51Z)
Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。 Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13～25%の高速化を実現した。安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1～8回発生することを発見した。
論文参考訳（メタデータ） (2023-04-25T17:38:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。