論文の概要: MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
- arxiv url: http://arxiv.org/abs/2505.03804v1
- Date: Fri, 02 May 2025 08:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.825668
- Title: MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
- Title(参考訳): MoEQuant: エキスパートベースサンプリングと親和性ガイダンスによる大規模言語モデル混合のための量子化の強化
- Authors: Xing Hu, Zhixuan Chen, Dawei Yang, Zukang Xu, Chen Xu, Zhihang Yuan, Sifan Zhou, Jiangyong Yu,
- Abstract要約: Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
- 参考スコア(独自算出の注目度): 10.817003682434425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) large language models (LLMs), which leverage dynamic routing and sparse activation to enhance efficiency and scalability, have achieved higher performance while reducing computational costs. However, these models face significant memory overheads, limiting their practical deployment and broader adoption. Post-training quantization (PTQ), a widely used method for compressing LLMs, encounters severe accuracy degradation and diminished generalization performance when applied to MoE models. This paper investigates the impact of MoE's sparse and dynamic characteristics on quantization and identifies two primary challenges: (1) Inter-expert imbalance, referring to the uneven distribution of samples across experts, which leads to insufficient and biased calibration for less frequently utilized experts; (2) Intra-expert imbalance, arising from MoE's unique aggregation mechanism, which leads to varying degrees of correlation between different samples and their assigned experts. To address these challenges, we propose MoEQuant, a novel quantization framework tailored for MoE LLMs. MoE-Quant includes two novel techniques: 1) Expert-Balanced Self-Sampling (EBSS) is an efficient sampling method that efficiently constructs a calibration set with balanced expert distributions by leveraging the cumulative probabilities of tokens and expert balance metrics as guiding factors. 2) Affinity-Guided Quantization (AGQ), which incorporates affinities between experts and samples into the quantization process, thereby accurately assessing the impact of individual samples on different experts within the MoE layer. Experiments demonstrate that MoEQuant achieves substantial performance gains (more than 10 points accuracy gain in the HumanEval for DeepSeekMoE-16B under 4-bit quantization) and boosts efficiency.
- Abstract(参考訳): 動的ルーティングとスパースアクティベーションを活用して効率とスケーラビリティを向上させるMOE(Mixture-of-Experts)大型言語モデル(LLM)は、計算コストを削減しつつ高い性能を実現している。
しかしながら、これらのモデルではメモリオーバーヘッドが大幅に増加し、実際のデプロイメントとより広範な採用が制限される。
ポストトレーニング量子化 (PTQ) は, LLMの圧縮に広く用いられている手法であり, MoE モデルに適用した場合, 高精度な精度劣化と一般化性能の低下に遭遇する。
本稿は,MoEのスパースと動的特性が量子化に与える影響を考察し,(1)専門家間でのサンプルの不均一分布に着目した専門家間不均衡,(2)MoEの特異な凝集機構から生じる専門家内不均衡,そして,異なるサンプルと割り当てられた専門家間の相関関係の度合いが異なること,の2つの主要な課題を明らかにする。
これらの課題に対処するため,本研究では,MoE LLMに適した新しい量子化フレームワークであるMoEQuantを提案する。
MoE-Quantには2つの新しいテクニックがある。
1) エキスパートベース自己サンプリング(EBSS)は, トークンの累積確率と専門家バランス指標を導出要因として活用することにより, バランスの取れた専門家分布のキャリブレーションセットを効率的に構築する, 効率的なサンプリング手法である。
2) Affinity-Guided Quantization (AGQ, Affinity-Guided Quantization) は, 専門家とサンプルの親和性を定量化プロセスに組み込んで, 個々の試料がMoE層内の異なる専門家に与える影響を正確に評価する。
実験により、MoEQuantは相当な性能向上(DeepSeekMoE-16BのHumanEvalの4ビット量子化における10ポイント以上の精度向上)を達成し、効率を向上することが示された。
関連論文リスト
- Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models [24.64757529640278]
クラスタ駆動のExpert Pruning(C-Prune)は、大規模言語モデルの適応的なタスク固有圧縮のための新しい2段階のフレームワークである。
C-Pruneはレイヤワイドの専門家クラスタリングを通じて動作し、各MoE層内で機能的に類似した専門家をグループ化する。
複数のMoEモデルとベンチマークの広範な実験を通じてC-Pruneを検証する。
論文 参考訳(メタデータ) (2025-04-10T14:46:26Z) - Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。