論文の概要: Elucidating the Design Space of FP4 training
- arxiv url: http://arxiv.org/abs/2509.17791v1
- Date: Mon, 22 Sep 2025 13:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.423162
- Title: Elucidating the Design Space of FP4 training
- Title(参考訳): FP4トレーニングの設計空間の解明
- Authors: Robert Hu, Carlo Luschi, Paul Balanca,
- Abstract要約: 本稿は,textttFP4トレーニングの設計空間を統一的に把握することを目的としている。
我々は、量子化をマイクロスケーリングするための包括的、量子化勾配に基づくフレームワークを導入する。
何千ものテクニックの組み合わせを体系的に評価することによって、どの構成が最も好ましいパフォーマンスとオーバヘッドのトレードオフを提供するかを特定します。
- 参考スコア(独自算出の注目度): 6.963061311516306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing computational demands of foundation models have spurred research into low-precision training, with 4-bit floating-point (\texttt{FP4}) formats emerging as a frontier for maximizing hardware throughput. While numerous techniques have been proposed to stabilize \texttt{FP4} training, they often present isolated solutions with varying, and not always clear, computational overheads. This paper aims to provide a unified view of the design space of \texttt{FP4} training. We introduce a comprehensive, quantisation gradient-based framework for microscaling quantization that allows for a theoretical analysis of the computational costs associated with different stabilization methods on both the forward and backward passes. Using a simulator built on this framework, we conduct an extensive empirical study across a wide range of machine learning tasks, including regression, image classification, diffusion models, and language models. By systematically evaluating thousands of combinations of techniques, such as novel gradient approximations, rounding strategies, and scaling methods, we identify which configurations offer the most favourable performance-to-overhead trade-off. We find that the techniques enabling the best trade-off involve carefully combining Hadamard transformations, tensor scaling and stochastic rounding. We further find that using \texttt{UE5M3} as a scaling factor potentially offers a good compromise between range and precision with manageable computational overhead.
- Abstract(参考訳): 4ビット浮動小数点 (\texttt{FP4}) フォーマットがハードウェアスループットを最大化するためのフロンティアとして登場した。
多くの技術が texttt{FP4} トレーニングを安定化させることが提案されているが、それらはしばしば、様々な、明確で常に計算上のオーバーヘッドを伴う、孤立した解を提示する。
本稿では,「texttt{FP4} トレーニング」の設計空間を統一的に把握することを目的としている。
本稿では,前方および後方の両方で異なる安定化手法に関連する計算コストを理論的に解析することのできる,量子化のマイクロスケーリングのための包括的,量子化勾配に基づくフレームワークを提案する。
このフレームワーク上に構築されたシミュレータを用いて、回帰、画像分類、拡散モデル、言語モデルを含む幅広い機械学習タスクにわたる広範な実験研究を行う。
新たな勾配近似、ラウンド戦略、スケーリング手法など、数千のテクニックの組み合わせを体系的に評価することにより、どの構成が最も好ましいパフォーマンスとオーバヘッドのトレードオフを提供するかを特定する。
最良のトレードオフを可能にする技術には、アダマール変換、テンソルスケーリング、確率的ラウンドリングを慎重に組み合わせる必要がある。
さらに、スケーリング係数として \texttt{UE5M3} を用いることで、管理可能な計算オーバーヘッドに対して、範囲と精度の良好な妥協が得られます。
関連論文リスト
- Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Efficient Neural PDE-Solvers using Quantization Aware Training [71.0934372968972]
量子化は、性能を維持しながら推論の計算コストを下げることができることを示す。
4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。
論文 参考訳(メタデータ) (2023-08-14T09:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。