論文の概要: MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling
- arxiv url: http://arxiv.org/abs/2511.05811v1
- Date: Sat, 08 Nov 2025 02:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.590328
- Title: MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling
- Title(参考訳): MOSS: マイクロスケーリングと自動スケーリングによるFP8 LLMの効率的かつ正確なトレーニング
- Authors: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu,
- Abstract要約: 現在のフレームワークは、混合粒度量子化、すなわちアクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。
効率と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
- 参考スコア(独自算出の注目度): 29.545879706181974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models with FP8 formats offers significant efficiency gains. However, the reduced numerical precision of FP8 poses challenges for stable and accurate training. Current frameworks preserve training performance using mixed-granularity quantization, i.e., applying per-group quantization for activations and per-tensor/block quantization for weights. While effective, per-group quantization requires scaling along the inner dimension of matrix multiplication, introducing additional dequantization overhead. Moreover, these frameworks often rely on just-in-time scaling to dynamically adjust scaling factors based on the current data distribution. However, this online quantization is inefficient for FP8 training, as it involves multiple memory reads and writes that negate the performance benefits of FP8. To overcome these limitations, we propose MOSS, a novel FP8 training framework that ensures both efficiency and numerical stability. MOSS introduces two key innovations: (1) a two-level microscaling strategy for quantizing sensitive activations, which balances precision and dequantization cost by combining a high-precision global scale with compact, power-of-two local scales; and (2) automatic scaling for weights in linear layers, which eliminates the need for costly max-reduction operations by predicting and adjusting scaling factors during training. Leveraging these techniques, MOSS enables efficient FP8 training of a 7B parameter model, achieving performance comparable to the BF16 baseline while achieving up to 34% higher training throughput.
- Abstract(参考訳): FP8フォーマットを使用した大規模言語モデルのトレーニングは、大幅な効率向上をもたらす。
しかし、FP8の数値精度の低下は、安定かつ正確な訓練に困難をもたらす。
現在のフレームワークは、混合粒度量子化、すなわち、アクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。
有効ではあるが、群ごとの量子化は行列乗法の内部次元に沿ってスケーリングする必要がある。
さらに、これらのフレームワークは、現在のデータ分散に基づいて動的にスケーリング係数を調整するために、ジャスト・イン・タイムのスケーリングに依存することが多い。
しかし、このオンライン量子化はFP8のトレーニングでは非効率である。
これらの制約を克服するために,効率性と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
MOSSは,(1)高精度なグローバルスケールと2つの局所スケールのコンパクトなパワーオブ2を組み合わせて,精度と分散化コストのバランスをとる,敏感なアクティベーションを定量化するための2段階のマイクロスケーリング戦略,(2)訓練中のスケーリング要因を予測・調整することで,コストのかかる最大化操作を不要とする線形層における重みの自動スケーリング,という2つの重要なイノベーションを導入している。
これらの技術を活用して、MOSSは7Bパラメータモデルの効率的なFP8トレーニングを可能にし、BF16ベースラインに匹敵するパフォーマンスを達成し、最大34%のトレーニングスループットを達成する。
関連論文リスト
- FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning [12.855945066222743]
本稿では,大規模言語モデル(LLM)のための実用的なFP8ロールアウトスタックを提案する。
i)ブロックワイズFP8量子化を用いてFP8 W8A8リニア層ロールアウトを実現し、(ii)FP8をKVキャッシュに拡張して長文メモリボトルネックを解消し、(iii)重要度に基づくロールアウト補正によるミスマッチを緩和する。
高密度モデルとMoEモデル全体で、これらのテクニックは、BF16ベースラインに匹敵する学習行動を保ちながら、最大44%のロールアウトスループットゲインを提供する。
論文 参考訳(メタデータ) (2026-01-26T05:12:05Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。