論文の概要: MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design
- arxiv url: http://arxiv.org/abs/2505.05799v1
- Date: Fri, 09 May 2025 05:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.163781
- Title: MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design
- Title(参考訳): MxMoE:精度と性能を両立したMoEの混合精度量子化
- Authors: Haojie Duanmu, Xiuhong Li, Zhihang Yuan, Size Zheng, Jiangfei Duan, Xingcheng Zhang, Dahua Lin,
- Abstract要約: MxMoEは、Mixture-of-Experts (MoE)モデルの混合精度最適化フレームワークである。
MxMoEはパラメータ感度、エキスパートアクティベーションダイナミクス、ハードウェアリソースによって定義された設計空間をナビゲートし、効率的な混合精度構成を導出する。
- 参考スコア(独自算出の注目度): 41.7649957078564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models face deployment challenges due to their large parameter counts and computational demands. We explore quantization for MoE models and highlight two key insights: 1) linear blocks exhibit varying quantization sensitivity, and 2) divergent expert activation frequencies create heterogeneous computational characteristics. Based on these observations, we introduce MxMoE, a mixed-precision optimization framework for MoE models that considers both algorithmic and system perspectives. MxMoE navigates the design space defined by parameter sensitivity, expert activation dynamics, and hardware resources to derive efficient mixed-precision configurations. Additionally, MxMoE automatically generates optimized mixed-precision GroupGEMM kernels, enabling parallel execution of GEMMs with different precisions. Evaluations show that MxMoE outperforms existing methods, achieving 2.4 lower Wikitext-2 perplexity than GPTQ at 2.25-bit and delivering up to 3.4x speedup over full precision, as well as up to 29.4% speedup over uniform quantization at equivalent accuracy with 5-bit weight-activation quantization. Our code is available at https://github.com/cat538/MxMoE.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、大きなパラメータ数と計算要求のため、デプロイメントの課題に直面します。
MoEモデルの量子化を探求し、2つの重要な洞察を強調します。
1)線形ブロックは様々な量子化感度を示し、
2) 発散した専門家アクティベーション周波数は不均一な計算特性を生み出す。
これらの観測に基づいて,アルゴリズムとシステムの観点からのMoEモデルの混合精度最適化フレームワークであるMxMoEを紹介する。
MxMoEはパラメータ感度、エキスパートアクティベーションダイナミクス、ハードウェアリソースによって定義された設計空間をナビゲートし、効率的な混合精度構成を導出する。
さらに、MxMoEは最適化された混合精度のGroupGEMMカーネルを自動生成し、異なる精度でGEMMの並列実行を可能にする。
MxMoEは既存の手法よりも優れており、2.25ビットのGPTQよりも2.4低いWikitext-2パープレキシティを実現し、完全な精度で最大3.4倍のスピードアップを実現し、5ビットの重み付け量子化と同等の精度で均一な量子化を最大29.4%高速化した。
私たちのコードはhttps://github.com/cat538/MxMoE.comで利用可能です。
関連論文リスト
- MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators [17.024303421560578]
我々は、高量子化MoEを低ランク補償器の混合で拡張する新しい方法であるMiLoを紹介する。
MiLoはキャリブレーションデータに依存しないので、キャリブレーションセットに過度に適合することなく、さまざまなMoEモデルやデータセットに一般化することができる。
評価の結果、MiLoは様々なタスクでSoTA MoEモデル上で既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-03T14:54:17Z) - MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness [12.059149430757863]
Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。
MoQaは、複数の分析段階におけるMoEのデータモデル分布の複雑さを分離する。
実験の結果、MoQaは言語モデリングタスクの1.692.18パープレキシティ低下と、ゼロショット推論タスクの1.58%8.91%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T03:52:25Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Mixture of Experts with Mixture of Precisions for Tuning Quality of Service [0.0]
本稿では,MoEモデルの効率的なデプロイのための適応型サービス方式を提案する。
量子化の専門家の数を動的に決定することにより、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。
その結果、動的かつ精度の高いアプリケーションにおける我々のアプローチの実用性を強調した。
論文 参考訳(メタデータ) (2024-07-19T15:42:49Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。