論文の概要: MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling
- arxiv url: http://arxiv.org/abs/2511.05811v1
- Date: Sat, 08 Nov 2025 02:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.590328
- Title: MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling
- Title(参考訳): MOSS: マイクロスケーリングと自動スケーリングによるFP8 LLMの効率的かつ正確なトレーニング
- Authors: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu,
- Abstract要約: 現在のフレームワークは、混合粒度量子化、すなわちアクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。
効率と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
- 参考スコア(独自算出の注目度): 29.545879706181974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models with FP8 formats offers significant efficiency gains. However, the reduced numerical precision of FP8 poses challenges for stable and accurate training. Current frameworks preserve training performance using mixed-granularity quantization, i.e., applying per-group quantization for activations and per-tensor/block quantization for weights. While effective, per-group quantization requires scaling along the inner dimension of matrix multiplication, introducing additional dequantization overhead. Moreover, these frameworks often rely on just-in-time scaling to dynamically adjust scaling factors based on the current data distribution. However, this online quantization is inefficient for FP8 training, as it involves multiple memory reads and writes that negate the performance benefits of FP8. To overcome these limitations, we propose MOSS, a novel FP8 training framework that ensures both efficiency and numerical stability. MOSS introduces two key innovations: (1) a two-level microscaling strategy for quantizing sensitive activations, which balances precision and dequantization cost by combining a high-precision global scale with compact, power-of-two local scales; and (2) automatic scaling for weights in linear layers, which eliminates the need for costly max-reduction operations by predicting and adjusting scaling factors during training. Leveraging these techniques, MOSS enables efficient FP8 training of a 7B parameter model, achieving performance comparable to the BF16 baseline while achieving up to 34% higher training throughput.
- Abstract(参考訳): FP8フォーマットを使用した大規模言語モデルのトレーニングは、大幅な効率向上をもたらす。
しかし、FP8の数値精度の低下は、安定かつ正確な訓練に困難をもたらす。
現在のフレームワークは、混合粒度量子化、すなわち、アクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。
有効ではあるが、群ごとの量子化は行列乗法の内部次元に沿ってスケーリングする必要がある。
さらに、これらのフレームワークは、現在のデータ分散に基づいて動的にスケーリング係数を調整するために、ジャスト・イン・タイムのスケーリングに依存することが多い。
しかし、このオンライン量子化はFP8のトレーニングでは非効率である。
これらの制約を克服するために,効率性と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
MOSSは,(1)高精度なグローバルスケールと2つの局所スケールのコンパクトなパワーオブ2を組み合わせて,精度と分散化コストのバランスをとる,敏感なアクティベーションを定量化するための2段階のマイクロスケーリング戦略,(2)訓練中のスケーリング要因を予測・調整することで,コストのかかる最大化操作を不要とする線形層における重みの自動スケーリング,という2つの重要なイノベーションを導入している。
これらの技術を活用して、MOSSは7Bパラメータモデルの効率的なFP8トレーニングを可能にし、BF16ベースラインに匹敵するパフォーマンスを達成し、最大34%のトレーニングスループットを達成する。
関連論文リスト
- Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。