論文の概要: HiFloat4 Format for Language Model Pre-training on Ascend NPUs
- arxiv url: http://arxiv.org/abs/2604.08826v1
- Date: Thu, 09 Apr 2026 23:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.612726
- Title: HiFloat4 Format for Language Model Pre-training on Ascend NPUs
- Title(参考訳): HiFloat4 Format for Language Model Pre-training on Ascend NPUs (英語)
- Authors: Mehran Taghian, Yunke Peng, Xing Huang, Yao Wang, Yaoyuan Wang, Wei Guo, Yuanyong Luo, Tianchi Hu, Junsong Wang, Xin Wang, Hu Liu, Yu Cheng, Ziwei Yu, Hongliang Li, Mehdi Rahimifar, Lei Yan, Xuefei Wang, Zhuang Ma, Lei Liu, Hui Yu, Anandharaju Durai Raju, Hoang Le, Hei Yi Mak, Tanzila Rahman, Shadan Golestan,
- Abstract要約: 最近の研究は、4ビット浮動小数点(FP4)フォーマットが大規模言語モデル(LLM)における線形GEMM操作にうまく適用可能であることを示した。
本研究では,Huawei Ascend NPU向けに最近提案されたHiFloat4 FP4フォーマットを調査し,大規模トレーニング環境でMXFP4と体系的に比較する。
- 参考スコア(独自算出の注目度): 32.1837830814629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models have become central to modern machine learning, with performance scaling predictably with model size and data. However, training and deploying such models incur substantial computational and memory costs, motivating the development of low-precision training techniques. Recent work has demonstrated that 4-bit floating-point (FP4) formats--such as MXFP4 and NVFP4--can be successfully applied to linear GEMM operations in large language models (LLMs), achieving up to 4x improvements in compute throughput and memory efficiency compared to higher-precision baselines. In this work, we investigate the recently proposed HiFloat4 FP4 format for Huawei Ascend NPUs and systematically compare it with MXFP4 in large-scale training settings. All experiments are conducted on Ascend NPU clusters, with linear and expert GEMM operations performed entirely in FP4 precision. We evaluate both dense architectures (e.g., Pangu and LLaMA-style models) and mixture-of-experts (MoE) models, where both standard linear layers and expert-specific GEMMs operate in FP4. Furthermore, we explore stabilization techniques tailored to FP4 training that significantly reduce numerical degradation, maintaining relative error within 1% of full-precision baselines while preserving the efficiency benefits of 4-bit computation. Our results provide a comprehensive empirical study of FP4 training on NPUs and highlight the practical trade-offs between FP4 formats in large-scale dense and MoE models.
- Abstract(参考訳): 大規模な基盤モデルは、モデルのサイズとデータで予測可能なパフォーマンスのスケーリングによって、現代の機械学習の中心となっている。
しかし、そのようなモデルの訓練と展開は、かなりの計算とメモリコストをもたらし、低精度のトレーニング技術の開発を動機付けている。
最近の研究は、MXFP4やNVFP4のような4ビット浮動小数点(FP4)フォーマットが、大規模言語モデル(LLM)における線形GEMM操作にうまく適用できることを示し、高い精度のベースラインに比べて最大4倍のスループットとメモリ効率を実現している。
本研究では,Huawei Ascend NPU向けに最近提案されたHiFloat4 FP4フォーマットを調査し,大規模トレーニング環境でMXFP4と体系的に比較する。
すべての実験はAscend NPUクラスタ上で行われ、線形かつ専門的なGEMM演算は完全にFP4精度で実行される。
我々は,FP4において,標準的な線形層と専門的なGEMMの両方が動作するような,高密度アーキテクチャ(例えば,PanguとLLaMAスタイルのモデル)とMix-of-experts(MoE)モデルの両方を評価する。
さらに,FP4トレーニングに適した安定化手法について検討し,数値劣化を著しく低減し,4ビット計算の効率性を維持しつつ,完全精度ベースラインの1%以内の相対誤差を維持する。
本研究は,NPUにおけるFP4トレーニングの総合的研究であり,大規模密集モデルとMoEモデルにおけるFP4フォーマット間の実践的トレードオフを明らかにするものである。
関連論文リスト
- Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。