論文の概要: EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization
- arxiv url: http://arxiv.org/abs/2506.13329v1
- Date: Mon, 16 Jun 2025 10:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.103005
- Title: EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization
- Title(参考訳): EAQuant: エキスパートアウェア最適化によるMoEモデルのトレーニング後の量子化の強化
- Authors: Zhongqian Fu, Ning Ding, Kai Han, Xianzhi Yu, Xiaosong Li, Xinghao Chen, Yehui Tang, Yunhe Wang,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。
MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。
我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
- 参考スコア(独自算出の注目度): 46.40666108181214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models have emerged as a cornerstone of large-scale deep learning by efficiently distributing computation and enhancing performance. However, their unique architecture-characterized by sparse expert activation and dynamic routing mechanisms-introduces inherent complexities that challenge conventional quantization techniques. Existing post-training quantization (PTQ) methods struggle to address activation outliers, router consistency and sparse expert calibration, leading to significant performance degradation. To bridge this gap, we propose EAQuant, a novel PTQ framework tailored for MoE architectures. Our method systematically tackles these challenges through three key innovations: (1) expert-aware smoothing aggregation to suppress activation outliers and stabilize quantization, (2) router logits distribution alignment to preserve expert selection consistency post-quantization, and (3) expert-level calibration data balance to optimize sparsely activated experts. Extensive experiments across W4A4 and extreme W3A4 quantization configurations demonstrate that EAQuant significantly outperforms existing methods, achieving average score improvements of 1.15 - 2.28% across three diverse MoE architectures, with particularly pronounced gains in reasoning tasks and robust performance retention under aggressive quantization. By integrating these innovations, EAQuant establishes a new state-of-the-art for high-precision, efficient MoE model compression. Our code is available at https://github.com/darren-fzq/EAQuant.
- Abstract(参考訳): Mixture-of-Experts (MoE) モデルは、効率的な計算の分散と性能向上による大規模ディープラーニングの基盤として現れている。
しかし、その特異なアーキテクチャはスパース専門家のアクティベーションと動的ルーティング機構によって特徴付けられるため、従来の量子化技術に挑戦する固有の複雑さがもたらされる。
既存のトレーニング後の量子化(PTQ)手法は、アクティベーションの外れ値、ルータの一貫性、スパース専門家のキャリブレーションに対処するのに苦労し、性能が大幅に低下した。
このギャップを埋めるために、我々は、MoEアーキテクチャに適した新しいPTQフレームワークEAQuantを提案する。
提案手法は,(1)アクティベーションアウトリーの抑制と量子化の安定化を目的とした,専門家対応のスムーズなアグリゲーション,(2)専門家選択の整合性を維持するためのルータロジット分布アライメント,(3)専門家レベルのキャリブレーションデータバランスの3つの重要なイノベーションを通じて,これらの課題に体系的に対処する。
W4A4と極端なW3A4量子化構成の広範な実験により、EAQuantは既存の手法よりも優れており、3つの異なるMoEアーキテクチャで平均スコアが1.15 - 2.28%向上した。
これらのイノベーションを統合することで、EAQuantは、高精度で効率的なMoEモデル圧縮のための新しい最先端技術を確立する。
私たちのコードはhttps://github.com/darren-fzq/EAQuant.comで公開されています。
関連論文リスト
- MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression [44.35542987414442]
構造化プルーニングと量子化は、ディープニューラルネットワーク(DNN)のサイズを減らすために使用される基本技術である
これらのテクニックを共同最適化を通じて併用することで、より小さく高品質なモデルを作成することができる。
本稿では,任意のDNN上で協調的構造化プルーニングと量子化学習を自動かつ効率的に行うフレームワークGETAを提案する。
論文 参考訳(メタデータ) (2025-02-23T16:28:18Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。