論文の概要: QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2406.08155v2
- Date: Tue, 25 Feb 2025 18:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 17:42:44.146409
- Title: QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts
- Title(参考訳): QuantMoE-Bench:Mixture-of-Expertsのトレーニング後の量子化の検討
- Authors: Pingzhi Li, Xiaolong Jin, Zhen Tan, Yu Cheng, Tianlong Chen,
- Abstract要約: Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
- 参考スコア(独自算出の注目度): 47.01697456105496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) is a promising way to scale up the learning capacity of large language models. It increases the number of parameters while keeping FLOPs nearly constant during inference through sparse activation. Yet, it still suffers from significant memory overheads due to the vast parameter size, necessitating model compression techniques. Post-training quantization offers a powerful approach for model compression. Existing methods adopt a fixed quantization precision for the entire MoE model. This rigid setup can lead to suboptimal performance, without considering the inherent sparse structure. For example, MoE's sparse routing mechanism leads to different activation patterns, where shared experts are accessed by all tokens while token-conditioned experts are selectively activated. This activation disparity suggests different quantization requirements, with consistently activated shared experts potentially needing higher precision to maintain model quality. In this paper, we study a fine-grained precision setup for MoE quantization. We explore MoE structure-aware quantization heuristics, ranging from coarse (e.g., MoE layers) to fine granularity (e.g., linear layers). Our investigations reveal critical principles, where different MoE structures require varying numbers of bits for effective quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks including commonsense reasoning and natural language understanding. We further show that an MoE quantized in a fined-grained mixed precision achieved state-of-the-art 65.35% performance on average compared to the baseline 64.30% (i.e., GPTQ). Moreover, based on the findings, we introduce novel data-driven techniques for optimizing bit allocation in MoE quantization, including the outlier-aware linear layer scorer and MoE block importance predictor.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップするための有望な方法である。
これは、スパースアクティベーションを通じて推論中にFLOPをほぼ一定に保ちながらパラメータ数を増加させる。
しかし、大きなパラメータサイズ、モデル圧縮技術を必要とするため、メモリオーバーヘッドが大幅に増大している。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
既存の手法では、MoEモデル全体の固定量子化精度が採用されている。
この厳密なセットアップは、固有のスパース構造を考慮せずに、最適以下の性能をもたらす可能性がある。
例えば、MoEのスパースルーティングメカニズムは、共有専門家がすべてのトークンからアクセスされ、トークン条件の専門家が選択的にアクティベートされる、さまざまなアクティベーションパターンをもたらす。
このアクティベーションの相違は、量子化の要件が異なることを示唆している。
本稿では,MoE量子化のための精密セットアップについて検討する。
我々は、粗い(例えば、MoE層)から細かい粒度(例えば、線形層)まで、MoEの構造を意識した量子化ヒューリスティックスを探求する。
我々の研究は、様々なMoE構造が効率的な量子化のために様々なビットを必要とする、重要な原理を明らかにしている。
結論は、2つの代表的なMoEモデルとコモンセンス推論と自然言語理解を含む6つのタスクにわたる広範なベンチマークによって支持される。
さらに、細粒度混合精度で量子化されたMoEが、ベースライン64.30%(GPTQ)と比較して平均65.35%の性能を達成したことを示す。
さらに,この結果に基づいて,アウトラヤ対応線形層スコアラやMoEブロックの重要度予測器など,MoE量子化におけるビット割り当てを最適化する新たなデータ駆動手法を提案する。
関連論文リスト
- MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators [17.024303421560578]
我々は、高量子化MoEを低ランク補償器の混合で拡張する新しい方法であるMiLoを紹介する。
MiLoはキャリブレーションデータに依存しないので、キャリブレーションセットに過度に適合することなく、さまざまなMoEモデルやデータセットに一般化することができる。
評価の結果、MiLoは様々なタスクでSoTA MoEモデル上で既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-03T14:54:17Z) - MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness [12.059149430757863]
Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。
MoQaは、複数の分析段階におけるMoEのデータモデル分布の複雑さを分離する。
実験の結果、MoQaは言語モデリングタスクの1.692.18パープレキシティ低下と、ゼロショット推論タスクの1.58%8.91%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T03:52:25Z) - MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit
Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。
MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。
低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文 参考訳(メタデータ) (2023-10-03T20:11:23Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。