論文の概要: MUXQ: Mixed-to-Uniform Precision MatriX Quantization via Low-Rank Outlier Decomposition
- arxiv url: http://arxiv.org/abs/2604.04701v1
- Date: Mon, 06 Apr 2026 14:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.220901
- Title: MUXQ: Mixed-to-Uniform Precision MatriX Quantization via Low-Rank Outlier Decomposition
- Title(参考訳): MUXQ:低ランク外乱分解による混合-一様精度行列量子化
- Authors: Seoungsub Lee, In Seo Kim, Seon Wook Kim,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて優れた性能を達成している。
ZeroQuant, LLM.int8() や SmoothQuant といった既存の手法では、入力アクティベーションのアウトレイアとハードウェアの非効率に完全に対応していない。
MUXQ(Mixed-to-Uniform Quantization)を提案する。
- 参考スコア(独自算出の注目度): 0.196629787330046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved outstanding performance across a wide range of natural language processing tasks, but their enormous parameter counts impose ubstantial memory and computational overheads. This challenge is particularly critical in NPU-based on-device environments, where FP16/FP32 computation is inefficient and integer (INT) quantization is therefore essential. However, existing methods, including ZeroQuant, LLM.int8(), and SmoothQuant, do not fully address input-activation outliers and the associated hardware inefficiencies. To overcome these limitations, we propose MUXQ (Mixed-to-Uniform Quantization). MUXQ detects outlier channels in input activations and introduces a small auxiliary matrix that redistributes outlier magnitudes across channels, thereby alleviating the outlier problem. This enables even activation outliers to be quantized at low-precision INT levels while preserving a hardware-friendly computation structure. Experiments on GPT-2 models at three scales (0.1B, 0.3B, and 0.7B parameters) using the WikiText-2 dataset show that MUXQ consistently achieves lower perplexity than naive quantization. In particular, under per-tensor quantization, MUXQ quantizes both activations and weights to INT8 while maintaining accuracy close to that of FP16. With only modest computational overhead, MUXQ enables stable low-precision inference and can be readily combined with other quantization techniques. These results suggest that MUXQ provides a promising direction for efficient and accurate LLM inference on edge devices.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて優れた性能を達成しているが、その膨大なパラメータ数は、メモリと計算上のオーバーヘッドを課している。
この課題は、FP16/FP32計算が非効率であり、整数量子化(INT)が不可欠であるNPUベースのオンデバイス環境において特に重要である。
しかし、ZeroQuant、LLM.int8()、SmoothQuantなどの既存の手法では、入力アクティベーションの外れ値とハードウェアの非効率性に完全に対応していない。
これらの制限を克服するため、MUXQ(Mixed-to-Uniform Quantization)を提案する。
MUXQは入力アクティベーションにおける外れ値チャネルを検出し、チャネル間で外れ値の規模を再分配する小さな補助行列を導入し、オフ値問題を緩和する。
これにより、ハードウェアフレンドリーな計算構造を維持しながら、低精度のINTレベルでのアクティベーションアウトレーヤの量子化が可能となる。
WikiText-2データセットを用いたGPT-2モデルの3つのスケール(0.1B、0.3B、0.7Bパラメータ)での実験は、MUXQが単純量子化よりも低いパープレキシティを一貫して達成していることを示している。
特に、テンソル単位の量子化の下では、MUXQはFP16に近い精度を維持しながら、活性化と重みの両方をINT8に量子化する。
最小限の計算オーバーヘッドしか持たず、MUXQは安定な低精度推論を可能にし、他の量子化技術と容易に組み合わせることができる。
これらの結果から,MUXQはエッジデバイス上でのLLM推論を効率的かつ高精度に行う上で有望な方向を示すことが示唆された。
関連論文リスト
- ELUTQ: Efficient LUT-Aware Quantization for Deploying Large Language Models on Edge Devices [3.465218658690795]
CPUベースのエッジデバイス上の大規模言語モデル(LLM)は、デバイス上のインテリジェンスの実現とAIアクセシビリティの拡大に不可欠である。
我々は,新しい量子化形式である階層線形量子化(HLQ)を導入した効率的な量子化フレームワークELUTQを提案する。
HLQは計算コストを増大させることなく、重量の統計特性をよりよく捉える。
LLaMA3-8Bの場合、HLQは3ビットで約8%、2ビット精度で約85%のパープレキシティを減少させる。
論文 参考訳(メタデータ) (2025-10-22T11:20:47Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models [20.070306492164427]
学習後の量子化は、大きな言語モデルの推論を加速する強力な技術として機能する。
既存の作業は、推論中にかなりの数の浮動小数点(FP)操作を必要とする。
この制限は、エッジとクラウドデバイス上の大きな言語モデルのデプロイを妨げる。
大規模言語モデルに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
論文 参考訳(メタデータ) (2024-05-28T05:56:11Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。