論文の概要: MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.02343v1
- Date: Mon, 04 Aug 2025 12:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.325546
- Title: MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models
- Title(参考訳): MicroMix: 大規模言語モデルのためのマイクロスケーリングフォーマットを用いた高速混合精度量子化
- Authors: Wenyuan Liu, Haoqian Meng, Yilun Luo, Peng Zhang, Xindian Ma,
- Abstract要約: 量子化は大規模言語モデル(LLM)の推論を著しく加速する
近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。
マイクロスケーリング(MX)データフォーマットをベースとした混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
- 参考スコア(独自算出の注目度): 3.305409455598179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization significantly accelerates inference in large language models (LLMs) by replacing original high-precision matrices with low-precision counterparts. Recent advances in weight-activation quantization have primarily focused on mapping both weights and activations to the INT4 format. Although the new FP4 Tensor Cores in NVIDIA's Blackwell architecture offer up to 4x speedup over FP16, existing INT4-based kernels fail to fully exploit this capability due to mismatched data formats. To bridge this gap, we propose MicroMix, a co-designed mixed-precision quantization algorithm and matrix multiplication kernel based on Microscaling (MX) data formats. Tailored for the Blackwell architecture, the MicroMix kernel supports arbitrary combinations of MXFP4, MXFP6, and MXFP8 channels, and produces BFloat16 outputs. To achieve a favorable trade-off between accuracy and efficiency for each linear layer, we introduce quantization thresholds that identify activation elements where lower-precision formats (MXFP4 or MXFP6) incur excessive quantization error. Our algorithm selectively allocates higher-precision channels to preserve accuracy while maintaining compute efficiency. MicroMix achieves competitive or superior performance across diverse downstream tasks, including zero-shot and few-shot learning, language modeling, code generation, and mathematical reasoning. On both consumer-grade (RTX 5070Ti laptop) and server-grade (RTX 5090) GPUs, our kernel delivers at least 20% faster execution than TensorRT-FP8. Furthermore, when applied to various Llama and Qwen models, MicroMix consistently improves prefill latency and memory efficiency across a range of batch sizes compared to TensorRT baselines. Our code is available at https://github.com/lwy2020/MicroMix.
- Abstract(参考訳): 量子化は、元の高精度行列を低精度の行列に置き換えることで、大きな言語モデル(LLM)の推論を著しく加速する。
近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。
NVIDIAのBlackwellアーキテクチャの新しいFP4 Tensor CoresはFP16の最大4倍のスピードアップを提供するが、既存のINT4ベースのカーネルは、ミスマッチしたデータフォーマットのためにこの機能を完全に活用することができない。
このギャップを埋めるために,Microscaling(MX)データ形式に基づく混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
Blackwellアーキテクチャ用に設計されたMicroMixカーネルは、MXFP4、MXFP6、MXFP8の任意の組み合わせをサポートし、BFloat16出力を生成する。
線形層毎の精度と効率のトレードオフを実現するために,低精度フォーマット (MXFP4 または MXFP6) が過剰な量子化誤差を引き起こす活性化要素を識別する量子化しきい値を導入する。
本アルゴリズムは,計算効率を維持しながら精度を維持するために,高精度チャネルを選択的に割り当てる。
MicroMixは、ゼロショットや少数ショットの学習、言語モデリング、コード生成、数学的推論など、さまざまな下流タスクの競合や優れたパフォーマンスを実現している。
コンシューマグレード(RTX 5070Tiラップトップ)とサーバグレード(RTX 5090)の両方で、私たちのカーネルはTensorRT-FP8よりも少なくとも20%高速な実行を実現しています。
さらに、様々なLlamaとQwenモデルに適用すると、MicroMixはTensorRTベースラインと比較して、さまざまなバッチサイズにわたるプリフィルレイテンシとメモリ効率を一貫して改善する。
私たちのコードはhttps://github.com/lwy2020/MicroMix.comで公開されています。
関連論文リスト
- MPX: Mixed Precision Training for JAX [54.62458721568289]
混合精度トレーニングは、ニューラルネットワークトレーニングの効率を高めるために必要なツールとして登場した。
本稿では,大規模ニューラルネットワークのトレーニングを簡略化し,高速化するJAX用混合精度トレーニングツールボックスMPXを提案する。
MPXはEquinoxやFraxといった一般的なツールボックスとシームレスに統合され、完全な精度パイプラインを混合精度バージョンに変換することができる。
論文 参考訳(メタデータ) (2025-07-04T05:47:04Z) - Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。