論文の概要: MXNorm: Reusing MXFP block scales for efficient tensor normalisation
- arxiv url: http://arxiv.org/abs/2603.13180v1
- Date: Fri, 13 Mar 2026 17:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.211396
- Title: MXNorm: Reusing MXFP block scales for efficient tensor normalisation
- Title(参考訳): MXNorm: 効率的なテンソル正規化のためのMXFPブロックスケールの再利用
- Authors: Callum McLean, Luke Y. Prince, Alexandre Payot, Paul Balança, Carlo Luschi,
- Abstract要約: 我々は、MXFP8キャストの一部として計算されたブロックスケールのみを用いてRMSを推定するRMSNormのドロップイン置換であるMXNormを提案する。
我々は,MXFP8のLlama 3 8B変換器層における1.3%の高速化とNVFP4の2.6%の高速化に対応して,MXNorm上のトーチ.コンパイルを最大2.4倍のRMSNormで実行した。
- 参考スコア(独自算出の注目度): 39.74786083127591
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Matrix multiplication performance has long been the major bottleneck to scaling deep learning workloads, which has stimulated the design of new accelerators that use increasingly low-precision number formats. However, improvements in matrix multiplication performance have far outstripped improvements in performance on reductions and elementwise computations, which are still being performed in higher precision. In this work, we propose MXNorm, a drop-in replacement for RMSNorm that estimates the RMS using only the block scales calculated as part of the MXFP8 cast and enables a 32x decrease in the size of reduction needed for normalization. We validate our approximation method on pre-training of Llama 3 models of 125M, 1B and 8B parameters, finding minimal loss of training accuracy compared to a baseline using RMSNorm with MXFP8 matmuls. We also show practical kernel speedups using only torch.compile of up to 2.4x for MXNorm over RMSNorm, corresponding to a 1.3% speedup in Llama 3 8B transformer layers in MXFP8 and a 2.6% speedup in NVFP4.
- Abstract(参考訳): マトリックスの乗算性能は、ディープラーニングのワークロードをスケールする上で、長い間大きなボトルネックとなっていた。
しかし, 行列乗算性能の向上は, 高い精度で実行されている減算や要素演算の性能向上に大きく寄与している。
本稿では、MXFP8キャストの一部として計算されたブロックスケールのみを用いてRMSを推定し、正規化に必要な縮小サイズの32倍の削減を可能にするRMSNormのドロップイン置換であるMXNormを提案する。
125M, 1B, 8BパラメータのLlama 3モデルの事前学習における近似法の有効性を検証し, MXFP8 を用いた RMSNorm を用いたベースラインと比較してトレーニング精度の低下を最小限に抑えた。
また、MXFP8のLlama 3 8B変換器層における1.3%の高速化とNVFP4の2.6%の高速化に対応して、MXNorm上のトーチ.コンパイルの最大2.4倍の実際のカーネル高速化を示す。
関連論文リスト
- Training Large Reasoning Models Efficiently via Progressive Thought Encoding [63.254758972725654]
大規模推論モデル(LRM)は複雑な問題に優れるが、効率にとって重要な障壁に直面している。
本稿では,パラメータ効率のよい微調整手法であるProgressive Thoughtを紹介する。
論文 参考訳(メタデータ) (2026-02-18T20:03:38Z) - Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction [1.8599887993390827]
Open Compute Project (OCP) Microscaling標準MXFP4はNVIDIAのNVFP4の精度に遅れている。
我々は,OAS(Overflow-Aware Scaling)とMBS(Macro Block Scaling)という,ソフトウェアのみの2つのテクニックを紹介した。
OASとMBSはMXFP4とNVFP4のエンドツーエンドの精度ギャップを平均で約10%から1%以下に減らす。
論文 参考訳(メタデータ) (2026-01-30T23:24:17Z) - Precision-Scalable Microscaling Datapaths with Optimized Reduction Tree for Efficient NPU Integration [3.146407420010677]
本稿では, MX MAC に対して, 両方のアプローチの利点を組み合わせた, ハイブリッド精度・スケール可能な削減木を提案する。
我々は、これらのMACの8x8配列を最先端(SotA)のNPU統合プラットフォームであるSNAXに統合し、効率的な制御とデータ転送を提供する。
MXINT8, MXFP8/6, MXFP4のスループットは64, 256, 512 GOPSでそれぞれ657, 1438-1675, 4065 GOPS/Wのエネルギー効率を実現している。
論文 参考訳(メタデータ) (2025-11-09T10:24:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Training LLMs with MXFP4 [16.524414449291488]
サポート対象ハードウェアのFP8よりも2倍高速なMXFP4 GEMMを用いた,最初のニアロスレストレーニングレシピを提示する。
我々のレシピでは、MXFP4のトレーニングFLOPを1/2$で計算し、バックプロパゲーション時に、FP8よりも$1.3times$、BF16より$1.7times$と見積もることができる。
論文 参考訳(メタデータ) (2025-02-27T23:01:31Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。