論文の概要: Quartet: Native FP4 Training Can Be Optimal for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14669v1
- Date: Tue, 20 May 2025 17:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.662328
- Title: Quartet: Native FP4 Training Can Be Optimal for Large Language Models
- Title(参考訳): Quartet: FP4ネイティブトレーニングは大規模言語モデルに最適
- Authors: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh,
- Abstract要約: 低精度算術でのトレーニングモデルは、計算スループットとエネルギー効率の両方を改善することで解決策を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、非常に低精度な操作、特にFP4のバリエーションを促進し、実質的な効率向上を約束している。
提案手法は,FP4ベーストレーニングが標準精度とFP8トレーニングの代替となることを示す。
- 参考スコア(独自算出の注目度): 27.800012997794987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA's recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a "near-optimal" low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.
- Abstract(参考訳): 大規模言語モデル(LLMs)の急速な進歩は、計算要求が前例のない増加によって平行しており、最先端モデルのトレーニングコストは数ヶ月毎に倍増している。
低精度算術でのトレーニングモデルは、計算スループットとエネルギー効率の両方を改善することで解決策を提供する。
具体的には、NVIDIAの最近のBlackwellアーキテクチャは、非常に低精度な操作、特にFP4のバリエーションを促進し、実質的な効率向上を約束している。
しかし、FP4精度でLLMをトレーニングするための現在のアルゴリズムは、かなりの精度の劣化に直面し、しばしば混合精度のフォールバックに依存している。
本稿では,ハードウェア支援型FP4トレーニングを体系的に検討し,高精度なFP4トレーニングを可能にする新しいアプローチであるQuartetを導入する。
Llama型モデルの広範な評価を通じて、様々なビット幅にわたるパフォーマンストレードオフを定量化する新しい低精度スケーリング法を明らかにし、精度vs計算(Quartet)という「ほぼ最適」な低精度トレーニング手法を同定する。
NVIDIA Blackwell GPU用に最適化されたCUDAカーネルを用いてQuartetを実装し、FP4精度の最先端の精度を実現し、数十億スケールモデルのトレーニングに成功していることを示す。
提案手法は,FP4ベーストレーニングが標準精度とFP8トレーニングの代替となることを示す。
私たちのコードはhttps://github.com/IST-DASLab/Quartet.comから入手可能です。
関連論文リスト
- Oscillation-Reduced MXFP4 Training for Vision Transformers [19.642508885867375]
FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。
MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。
より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
論文 参考訳(メタデータ) (2025-02-28T08:51:55Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。