論文の概要: MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2510.14557v1
- Date: Thu, 16 Oct 2025 11:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.824342
- Title: MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving
- Title(参考訳): MX+: 効率的な大規模言語モデル構築のためのマイクロスケーリングフォーマットの限界を押し上げる
- Authors: Jungi Lee, Junyong Park, Soohyun Cha, Jaehoon Cho, Jaewoong Sim,
- Abstract要約: 大規模言語モデル(LLM)のコスト効率向上のためには,データフォーマットの高精度化が不可欠である
本稿では,ブロック浮動小数点(BFP)フォーマットの最近の業界主導の変種に着目した。
マイクロスケーリング(MX)フォーマットへのシームレスな統合を目的とした費用対効果と非侵入性の拡張であるMX+を提案する。
- 参考スコア(独自算出の注目度): 4.176741972965246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reduced-precision data formats are crucial for cost-effective serving of large language models (LLMs). While numerous reduced-precision formats have been introduced thus far, they often require intrusive modifications to the software frameworks or are rather unconventional for widespread adoption across hardware vendors. In this paper, we instead focus on recent industry-driven variants of block floating-point (BFP) formats and conduct a comprehensive analysis to push their limits for efficient LLM serving. Our analysis shows that existing ultra low-bit BFP variants struggle to provide reasonable language model performance due to outlier values in blocks. To address the outliers with BFPs, we propose MX+, a cost-effective and non-intrusive extension designed for seamless integration into the microscaling (MX) formats. MX+ builds on the key insight that the outlier does not need to use its exponent field in the element data type, which allows us to repurpose the exponent field as an extended mantissa to increase the precision of the outlier element. Our evaluation shows that MX+ achieves significantly higher model performance compared to the 4-bit MX format (MXFP4) with negligible storage overhead and slowdown, thus offering a compelling alternative to MXFP4 or MXFP6 for efficient LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)のコスト効率向上のためには,データフォーマットの高精度化が不可欠である。
これまでに多くの縮小精度フォーマットが導入されたが、ソフトウェアフレームワークへの侵入的な修正を必要とすることも多い。
本稿では,近年のブロック浮動小数点 (BFP) フォーマットの産業主導型変種に着目し,LLMの効率的な提供限界を推し進めるための包括的分析を行う。
解析の結果,既存の超低ビットBFP変種は,ブロックの外れ値による言語モデルの性能向上に苦慮していることがわかった。
マイクロスケーリング(MX)フォーマットへのシームレスな統合を目的とした費用対効果と非侵入性拡張であるMX+を提案する。
MX+は、出力フィールドを要素データ型に使用する必要がなくなるという重要な洞察に基づいており、出力フィールドを拡張マティッサとして再利用して、出力フィールドの精度を高めることができる。
その結果, MXFP4 や MXFP6 の代替として, 4ビット MX フォーマット (MXFP4) のストレージのオーバーヘッドや遅延を無視できるため, LLM の効率的な推論には, MXFP4 や MXFP6 の代替となる可能性が示唆された。
関連論文リスト
- Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models [3.305409455598179]
量子化は大規模言語モデル(LLM)の推論を著しく加速する
近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。
マイクロスケーリング(MX)データフォーマットをベースとした混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
論文 参考訳(メタデータ) (2025-08-04T12:22:39Z) - ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。
MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。
私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-03-17T08:38:45Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models [5.680646377552021]
ナノスケーリング(NxFP)は、最先端のMxFPよりも精度とメモリフットプリントを向上する3つの手法を提案する。
NxFPはメモリフットプリントを最大16%削減し、MxFPと同等のパープレキシティを実現する。
論文 参考訳(メタデータ) (2024-12-15T22:18:20Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。
単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - SecFormer: Fast and Accurate Privacy-Preserving Inference for Transformer Models via SMPC [34.63351580241698]
本稿では,Transformer モデルに対する高速かつ正確な PPI を実現するための SecFormer という包括的 PPI フレームワークを提案する。
効率面では、SecFormerはBERT$_textBASE$とBERT$_textLARGE$のPUMAよりも3.57倍速い。
論文 参考訳(メタデータ) (2024-01-01T15:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。