論文の概要: MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
- arxiv url: http://arxiv.org/abs/2503.21135v1
- Date: Thu, 27 Mar 2025 03:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:46.867438
- Title: MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
- Title(参考訳): MoQa: マルチステージデータモデル分散認識によるMoE量子化の再考
- Authors: Zihao Zheng, Xiuping Cui, Size Zheng, Maoliang Li, Jiayu Chen, Yun, Liang, Xiang Chen,
- Abstract要約: Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。
MoQaは、複数の分析段階におけるMoEのデータモデル分布の複雑さを分離する。
実験の結果、MoQaは言語モデリングタスクの1.692.18パープレキシティ低下と、ゼロショット推論タスクの1.58%8.91%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 12.059149430757863
- License:
- Abstract: With the advances in artificial intelligence, Mix-of-Experts (MoE) has become the main form of Large Language Models (LLMs), and its demand for model compression is increasing. Quantization is an effective method that not only compresses the models but also significantly accelerates their performance. Existing quantization methods have gradually shifted the focus from parameter scaling to the analysis of data distributions. However, their analysis is designed for dense LLMs and relies on the simple one-model-all-data mapping, which is unsuitable for MoEs. This paper proposes a new quantization framework called MoQa. MoQa decouples the data-model distribution complexity of MoEs in multiple analysis stages, quantitively revealing the dynamics during sparse data activation, data-parameter mapping, and inter-expert correlations. Based on these, MoQa identifies particular experts' and parameters' significance with optimal data-model distribution awareness and proposes a series of fine-grained mix-quantization strategies adaptive to various data activation and expert combination scenarios. Moreover, MoQa discusses the limitations of existing quantization and analyzes the impact of each stage analysis, showing novel insights for MoE quantization. Experiments show that MoQa achieves a 1.69~2.18 perplexity decrease in language modeling tasks and a 1.58%~8.91% accuracy improvement in zero-shot inference tasks. We believe MoQa will play a role in future MoE construction, optimization, and compression.
- Abstract(参考訳): 人工知能の進歩に伴い、Mix-of-Experts (MoE) はLarge Language Models (LLMs) の主流となり、モデル圧縮への需要が高まっている。
量子化は、モデルを圧縮するだけでなく、その性能を著しく加速する有効な方法である。
既存の量子化手法は、パラメータスケーリングからデータ分散の分析へと徐々に焦点を移してきた。
しかし、それらの解析は高密度LLM向けに設計されており、単純な1モデル全データマッピングに依存しており、MOEには適さない。
本稿では,MoQaと呼ばれる新しい量子化フレームワークを提案する。
MoQaは、複数の分析段階におけるMoEのデータモデル分布の複雑さを分離し、スパースデータアクティベーション、データパラメータマッピング、および専門家間の相関の間のダイナミクスを定量的に明らかにする。
これらに基づいて、MoQaは最適なデータモデル分布認識を用いて、特定の専門家の意義とパラメータの意義を特定し、様々なデータアクティベーションと専門家の組み合わせシナリオに適応した一連のきめ細かい混合量子化戦略を提案する。
さらに、MoQaは既存の量子化の限界について議論し、各ステージ分析の影響を分析し、MoE量子化の新しい洞察を示す。
実験の結果、MoQaは言語モデリングタスクの1.69~2.18パープレキシティ低下と、ゼロショット推論タスクの1.58%~8.91%の精度向上を達成した。
MoQaは将来のMoEの構築、最適化、圧縮において役割を果たすと思います。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - Analysis of Atom-level pretraining with Quantum Mechanics (QM) data for Graph Neural Networks Molecular property models [0.0]
量子力学(QM)データを用いた原子レベルの事前トレーニングは、トレーニングデータとテストデータ間の分布類似性に関する仮定違反を軽減することができることを示す。
隠れ状態の分子表現を解析し、QMデータに対する分子レベルと原子レベルの事前学習の効果を比較するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-05-23T17:51:05Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。