Fugu-MT 論文翻訳(概要): Training LLMs with MXFP4

論文の概要: Training LLMs with MXFP4

arxiv url: http://arxiv.org/abs/2502.20586v2
Date: Tue, 04 Mar 2025 04:58:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 13:46:35.469376
Title: Training LLMs with MXFP4
Title（参考訳）: MXFP4によるLDMのトレーニング
Authors: Albert Tseng, Tao Yu, Youngsuk Park,
Abstract要約: サポート対象ハードウェアのFP8よりも2倍高速なMXFP4 GEMMを用いた,最初のニアロスレストレーニングレシピを提示する。我々のレシピでは、MXFP4のトレーニングFLOPを1/2$で計算し、バックプロパゲーション時に、FP8よりも$1.3times$、BF16より$1.7times$と見積もることができる。
参考スコア（独自算出の注目度）: 15.084813381461903
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low precision (LP) datatypes such as MXFP4 can accelerate matrix multiplications (GEMMs) and reduce training costs. However, directly using MXFP4 instead of BF16 during training significantly degrades model quality. In this work, we present the first near-lossless training recipe that uses MXFP4 GEMMs, which are $2\times$ faster than FP8 on supported hardware. Our key insight is to compute unbiased gradient estimates with stochastic rounding (SR), resulting in more accurate model updates. However, directly applying SR to MXFP4 can result in high variance from block-level outliers, harming convergence. To overcome this, we use the random Hadamard tranform to theoretically bound the variance of SR. We train GPT models up to 6.7B parameters and find that our method induces minimal degradation over mixed-precision BF16 training. Our recipe computes $>1/2$ the training FLOPs in MXFP4, enabling an estimated speedup of $>1.3\times$ over FP8 and $>1.7\times$ over BF16 during backpropagation.
Abstract（参考訳）: MXFP4のような低精度(LP)データ型は、行列乗算(GEMM)を加速し、トレーニングコストを削減できる。しかしながら、トレーニング中にBF16の代わりにMXFP4を直接使用すると、モデルの品質が大幅に低下する。本研究では,MXFP4 GEMMを用いた,サポート対象ハードウェア上でのFP8よりも2\times$のトレーニングレシピを提示する。我々の重要な洞察は、確率的ラウンドリング(SR)による偏りのない勾配推定を計算し、より正確なモデル更新をもたらすことである。しかし、直接 SR を MXFP4 に適用すると、ブロックレベルの出力値から高いばらつきが生じ、収束が損なわれる。これを克服するために、ランダムなアダマール変換を用いて理論的にSRの分散を束縛する。我々は、GPTモデルを6.7Bパラメータまで訓練し、混合精度のBF16トレーニングよりも最小限の劣化を誘導することを発見した。我々のレシピでは、MXFP4のトレーニングFLOPを1/2$で計算し、バックプロパゲーション中に、FP8以上の$>1.3\times$とBF16上の$>1.7\times$と見積もることができる。

関連論文リスト

Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs [2.576131688630686]
大規模なMixture-of-Experts(MoE)モデルのトレーニングは、アクティベーションメモリとエキスパート-並列通信によってボトルネックとなる。 4ビットのネイティブサポートを伴わないHopper上でMoEモデルのMXFP4効率を実現するためのトレーニングレシピを提案する。
論文参考訳（メタデータ） (2026-03-03T08:29:19Z)
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。 FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文参考訳（メタデータ） (2025-10-29T15:11:53Z)
Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文参考訳（メタデータ） (2025-10-23T14:02:34Z)
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。 MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文参考訳（メタデータ） (2025-09-27T09:22:21Z)
Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文参考訳（メタデータ） (2025-05-25T12:14:25Z)
ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。 MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2025-03-17T08:38:45Z)
Oscillation-Reduced MXFP4 Training for Vision Transformers [19.642508885867375]
FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。 MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
論文参考訳（メタデータ） (2025-02-28T08:51:55Z)
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam [94.00189300897694]
低ビット精度は感度学習率を増幅し、しばしば不安定な勾配ノルムを引き起こす。本研究では, 勾配正規化とクリッピングを併用したスタブルSPAMを提案する。実験により,Stable-SPAMは4ビットトレーニングの勾配ノルムを効果的に安定化し,AdamやSPAMよりも優れた性能を実現することが示された。
論文参考訳（メタデータ） (2025-02-24T11:09:15Z)
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。 FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文参考訳（メタデータ） (2025-02-17T05:33:11Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。 AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文参考訳（メタデータ） (2024-11-15T03:11:19Z)
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文参考訳（メタデータ） (2024-07-22T17:23:28Z)
To FP8 and Back Again: Quantifying the Effects of Reducing Precision on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文参考訳（メタデータ） (2024-05-29T02:42:23Z)
FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文参考訳（メタデータ） (2023-10-27T17:59:51Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。 Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13～25%の高速化を実現した。安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1～8回発生することを発見した。
論文参考訳（メタデータ） (2023-04-25T17:38:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。