論文の概要: MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
- arxiv url: http://arxiv.org/abs/2503.21135v2
- Date: Sat, 17 May 2025 12:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.541775
- Title: MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
- Title(参考訳): MoQa: マルチステージデータモデル分散認識によるMoE量子化の再考
- Authors: Zihao Zheng, Xiuping Cui, Size Zheng, Maoliang Li, Jiayu Chen, Yun Liang, Xiang Chen,
- Abstract要約: Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。
MoQaは、分布認識を備えたエキスパートレベルの混合精度ベース量子化である。
MoQaは2.746.44 PPLの減少と1.85%3.77%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 8.021289706876606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advances in artificial intelligence, Mix-of-Experts (MoE) has become the main form of Large Language Models (LLMs), and its demand for model compression is increasing. Quantization is an effective method that not only compresses the models but also significantly accelerates their performance. Existing quantization methods have gradually shifted the focus from parameter scaling to the analysis of data distributions. However, their analysis is designed for dense LLMs, which are suboptimal for MoE quantization, due to MoEs' complex data-model distribution. To address this problem, we decouple the complexity of MoEs' data-model distribution into a multi-stage analysis and reveal MoEs' inherent dynamics. The analysis results show that the expert performance of MoE varies dynamically both within and across data distributions. Based on these, we design two quantization strategies with data-model distribution awareness and integrate them into an end-to-end framework for MoE quantization, which is named MoQa. MoQa uses an expert-level mix-precision base quantization with distribution awareness. Moreover, MoQa uses a channel-level quantization adjustment to dynamically adjust expert performance to adapt to novel distributions. Experiments show that MoQa's base quantization achieves a 0.49~8.51 PPL decrease on known distributions. With the adjustments, MoQa achieves a 2.74~6.44 PPL decrease and 1.85%~3.77% average accuracy improvements on novel distributions. We believe MoQa will play a role in future MoE construction, optimization, and compression.
- Abstract(参考訳): 人工知能の進歩に伴い、Mix-of-Experts (MoE) はLarge Language Models (LLMs) の主要な形態となり、モデル圧縮に対する需要が増加している。
量子化は、モデルを圧縮するだけでなく、その性能を著しく加速する有効な方法である。
既存の量子化手法は、パラメータスケーリングからデータ分散の分析へと徐々に焦点を移してきた。
しかし、それらの解析は、MoEsの複雑なデータモデル分布のため、MoE量子化のサブ最適である高密度LLM向けに設計されている。
この問題に対処するために、MoEsのデータモデル分布の複雑さを多段階解析に分離し、MoEs固有のダイナミクスを明らかにする。
解析結果から,MoEの専門的性能はデータ分布内およびデータ分布内の両方で動的に変化することがわかった。
これらに基づいて、データモデル分布認識を伴う2つの量子化戦略を設計し、それらをMoQaと呼ばれるMoE量子化のためのエンドツーエンドフレームワークに統合する。
MoQaは、分布認識を伴うエキスパートレベルの混合精度ベース量子化を使用する。
さらに、MoQaはチャネルレベルの量子化調整を使用して、専門家のパフォーマンスを動的に調整し、新しい分布に適応する。
実験により、MoQaの基底量子化は既知の分布において 0.49~8.51 PPL の減少を達成することが示された。
この調整により、MoQaは2.74~6.44 PPLの減少と1.85%~3.77%の精度向上を達成した。
MoQaは将来のMoEの構築、最適化、圧縮において役割を果たすと思います。
関連論文リスト
- Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size [0.0]
エントロピー重み量子化(EWQ)を用いた選択モデル量子化の新しい手法を提案する。
EWQは、モデルアーキテクチャやサイズとは独立して、パフォーマンスを著しく低下させることなく、どのブロックを安全に定量化できるかを決定する。
提案手法は一様量子化手法より優れており,MMLU(Massive Multitask Language Understanding)の精度は0.5%の範囲で維持されている。
論文 参考訳(メタデータ) (2025-03-06T18:54:32Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - Analysis of Atom-level pretraining with Quantum Mechanics (QM) data for Graph Neural Networks Molecular property models [0.0]
量子力学(QM)データを用いた原子レベルの事前トレーニングは、トレーニングデータとテストデータ間の分布類似性に関する仮定違反を軽減することができることを示す。
隠れ状態の分子表現を解析し、QMデータに対する分子レベルと原子レベルの事前学習の効果を比較するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-05-23T17:51:05Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts [2.794896499906838]
ソフトマックスゲーティング関数を持つガウスモデルとガウス専門家のクラスを考察する。
我々の知る限りでは、SGMoEモデルの$l_1$-regularization特性を非漸近的観点から初めて研究する。
我々は、SGMoEモデルに対するラッソ推定器のKulback-Leibler損失の非漸近的理論的制御を保証するために、ラッソペナルティの正規化パラメータの低い境界を与える。
論文 参考訳(メタデータ) (2020-09-22T15:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。