論文の概要: Metis: Training LLMs with FP4 Quantization
- arxiv url: http://arxiv.org/abs/2509.00404v4
- Date: Tue, 30 Sep 2025 10:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.798834
- Title: Metis: Training LLMs with FP4 Quantization
- Title(参考訳): Metis: FP4量子化によるLDMのトレーニング
- Authors: Hengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang,
- Abstract要約: メティス(Metis)は、異方性スペクトルを独立量子化のためのより狭い部分分布に分割するフレームワークである。
100Bトークンで訓練されたLLaMA-3 8Bでは、メティスは重量、アクティベーション、勾配のFP4量子化による堅牢なW4A4G4トレーニングを可能にする。
- 参考スコア(独自算出の注目度): 28.596611044555306
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work identifies anisotropy in the singular value spectra of parameters, activations, and gradients as the fundamental barrier to low-bit training of large language models (LLMs). These spectra are dominated by a small fraction of large singular values, inducing wide numerical ranges that cause quantization bias and severe spectral distortion, ultimately degrading training performance. This work presents Metis, a spectral-domain quantization framework that partitions anisotropic spectra into narrower sub-distributions for independent quantization, thereby reducing errors and preserving spectral structure. To minimize overhead, Metis leverages two key properties of the dominant spectral subspace: preservation via sparsely random sampling and preservation via random projection, reducing decomposition cost to a negligible level. On LLaMA-3 8B trained with 100B tokens, Metis enables robust W4A4G4 training with FP4 quantization of weights, activations, and gradients, yielding only a 0.4% training loss gap and a 0.1% degradation in downstream accuracy relative to BF16. Beyond matching BF16 fidelity, Metis also surpasses our implementation of Nvidia's recently announced (yet to be publicly released) FP4 recipe, consistently achieving lower loss and higher downstream accuracy while incurring significantly lower computational overhead. The code implementation for Metis is available at: https://anonymous.4open.science/r/Metis-quantization-644B.
- Abstract(参考訳): この研究は、パラメータ、アクティベーション、勾配の特異値スペクトルにおける異方性を、大きな言語モデル(LLM)の低ビットトレーニングの基本的な障壁として特定する。
これらのスペクトルは、少数の大きな特異値によって支配されており、量子化バイアスと激しいスペクトル歪みを引き起こす広い数値範囲を誘導し、最終的に訓練性能を低下させる。
スペクトル領域量子化フレームワークであるMetisは、異方性スペクトルを独立量子化のためのより狭い部分分布に分割し、誤差を減らしスペクトル構造を保存する。
オーバーヘッドを最小化するために、メティスは支配的なスペクトル部分空間の2つの重要な特性、すなわち、スパースランダムサンプリングによる保存とランダムプロジェクションによる保存、そして分解コストを無視可能なレベルまで低減する。
100Bトークンで訓練されたLLaMA-3 8Bでは、メティスは重量、アクティベーション、勾配のFP4量子化による堅牢なW4A4G4トレーニングを可能にし、トレーニング損失の差は0.4%しかなく、BF16と比較して下流の精度は0.1%低下している。
BF16との整合性以外にも、MetisはNvidiaが最近発表した(公開予定)FP4レシピの実装を超越し、一貫して損失の低減とダウンストリームの精度の向上を実現しつつ、計算オーバーヘッドの大幅な低減を実現している。
Metisのコード実装は、https://anonymous.4open.science/r/Metis-quantization-644Bで利用可能である。
関連論文リスト
- Dissecting Outlier Dynamics in LLM NVFP4 Pretraining [46.10969678564592]
本研究は,NVFP4プレトレーニング中におけるアーキテクチャ内外層力学の経時的解析を行う。
我々は、Softmax Attention (SA) と比較して、Linear Attention (LA) はテンソルあたりの重みを減少させるが、ブロック量子化の下ではブロックレベルのスパイクが持続することを示した。
次に,NVFP4のトレーニングレシピであるCHONを開発し,QK後の操作保護と統合した。
論文 参考訳(メタデータ) (2026-02-02T12:50:27Z) - On the Spectral Flattening of Quantized Embeddings [25.64641307046705]
超低精度での大規模言語モデルの訓練は、離散量子化制約と言語データの本質的な重み付きスペクトル特性の相違に根ざした不安定性によって、決定的に阻害される。
この研究は、LLMのスペクトル感度を定量化するだけでなく、安定な低ビット最適化に必要な条件としてスペクトル忠実性を確立する。
論文 参考訳(メタデータ) (2026-02-01T02:21:53Z) - Spectral Bias Mitigation via xLSTM-PINN: Memory-Gated Representation Refinement for Physics-Informed Learning [6.546212906401042]
我々は、スペクトルバイアスを抑制し、外挿を強化するために、表現レベルのスペクトルリモデリングxLSTM-PINNを導入する。
4つのベンチマークで、ゲート型クロススケールメモリ、ステージ付き周波数カリキュラム、適応型残差再重み付けを統合した。
ベースラインPINNと比較して、MSE、RMSE、MAE、MaxAEを4つのベンチマークで削減し、よりクリーンな境界遷移を提供する。
論文 参考訳(メタデータ) (2025-11-16T08:55:27Z) - SpecQuant: Spectral Decomposition and Adaptive Truncation for Ultra-Low-Bit LLMs Quantization [18.039420989848484]
SpecQuantはアクティベーションアウトレーヤとチャネル間の分散に対処する2段階のフレームワークである。
LLaMA-3 8Bでは、SpecQuantはウェイトとアクティベーションの両方で4ビットの量子化を実現し、ゼロショット精度のギャップは全精度に比べてわずか1.5%に縮小した。
論文 参考訳(メタデータ) (2025-11-11T11:02:13Z) - AMS-QUANT: Adaptive Mantissa Sharing for Floating-point Quantization [7.413057271242686]
量子化、特に浮動小数点量子化は、大きな言語モデル(LLM)推論を高速化できることが知られている。
整数ビット幅から非整数ビット幅への浮動小数点量子化探索を探索するAMS-Quantを提案する。
AMS-Quant はモデルを FP-5.33-e2m3 と FP4.25-e2m2 に量子化し、FP16 の推論よりもデコードを大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2025-10-16T15:37:23Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Mixed-Precision Quantization for Federated Learning on
Resource-Constrained Heterogeneous Devices [17.56259695496955]
本稿では,資源不均一なFLシステムに混合精度量子化を導入する新しいFLアルゴリズムであるFedMPQを提案する。
具体的には、ビット幅制約を満たすために量子化された局所モデルは、目的関数を最適化することによって訓練される。
ローカルトレーニングの次のラウンドを初期化するために、サーバは、異なるクライアントに配信されるモデルのビット幅割り当てをカスタマイズするために、前回のトレーニングラウンドで学んだ情報に依存する。
論文 参考訳(メタデータ) (2023-11-29T22:43:40Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。