論文の概要: CodeQuant: Unified Clustering and Quantization for Enhanced Outlier Smoothing in Low-Precision Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2604.10496v1
- Date: Sun, 12 Apr 2026 07:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.051486
- Title: CodeQuant: Unified Clustering and Quantization for Enhanced Outlier Smoothing in Low-Precision Mixture-of-Experts
- Title(参考訳): CodeQuant: 低精度混合器における外周平滑化のための統一クラスタリングと量子化
- Authors: Xiangyang Yin, Xingyu Liu, Tianhua Xia, Bo Bao, Vithursan Thangarasa, Valavan Manohararajah, Eric Sather, Sai Qian Zhang,
- Abstract要約: アウトレーヤは、低精度の大型モデルの精度を維持するための基本的なボトルネックとして現れている。
我々は,学習可能な回転および重み付き外周波をMoE用微調整クラスタセントロイドに吸収することで,活性化外周波の滑らか化を含む統一量子化クラスタリング方式であるCodeQuantを紹介する。
CodeQuantは最大$4.15timesのスピードアップを実現し、様々なMoEモデルにまたがる最先端の量子化アプローチよりもはるかに高い精度を実現している。
- 参考スコア(独自算出の注目度): 11.005678744572888
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Outliers have emerged as a fundamental bottleneck in preserving accuracy for low-precision large models, particularly within Mixture-of-Experts (MoE) architectures that are increasingly central to large-scale language modeling. Under post-training quantization (PTQ), these outliers induce substantial quantization errors, leading to severe accuracy degradation. While recent rotation-based smoothing techniques alleviate the problem by redistributing outlier magnitudes, residual errors remain and continue to impede reliable low-precision deployment. In this work, we tackle this challenge by introducing \textit{CodeQuant}, a unified quantization-and-clustering scheme that contains smoothing activation outliers via learnable rotation and absorbing weight outliers into fine-tuned cluster centroids for MoE. This design reduces the influence of extreme values by fitting them within cluster centroids, thereby lowering quantization error while maintaining expressive capacity. Coupled with a dedicated kernel design for GPU and CPU, CodeQuant achieves up to $4.15\times$ speedup while delivering significantly higher accuracy than state-of-the-art quantization approaches across diverse MoE models. Our results highlight CodeQuant as a promising direction for efficient and accurate deployment of MoE-based large language models under low-precision constraints. Our code is available at https://github.com/SAI-Lab-NYU/CodeQuant.
- Abstract(参考訳): 特に大規模な言語モデリングの中心となるMixture-of-Experts (MoE)アーキテクチャにおいて、アウトレーヤは低精度の大規模モデルの精度を維持するための基本的なボトルネックとして現れている。
トレーニング後の量子化(PTQ)では、これらのアウトレイアは実質的な量子化誤差を生じさせ、深刻な精度低下をもたらす。
最近の回転法に基づく平滑化技術は、外乱等級を再分配することによって問題を緩和するが、残差は残り、信頼性の高い低精度展開を妨げ続けている。
そこで本研究では,学習可能な回転による活性化オプティキュアのスムーズ化と,重み付きオプティキュアをMoE用微調整クラスタセントロイドに吸収する,統一量子化・クラスタリング方式である‘textit{CodeQuant} を導入することで,この問題に対処する。
この設計は、クラスタセントロイドに収まることにより、極端な値の影響を低減し、表現能力を維持しながら量子化誤差を低減させる。
GPUとCPU専用のカーネル設計と組み合わせて、CodeQuantは最大4.15\times$スピードアップを実現し、様々なMoEモデルにおける最先端の量子化アプローチよりもはるかに高い精度を実現している。
この結果から,CodeQuantは,低精度制約下でのMoEベースの大規模言語モデルの効率的かつ正確な展開に向けて有望な方向であることがわかった。
私たちのコードはhttps://github.com/SAI-Lab-NYU/CodeQuant.orgから入手可能です。
関連論文リスト
- Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。
まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文 参考訳(メタデータ) (2025-09-24T15:10:44Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。