論文の概要: Towards Efficient Mixture of Experts: A Holistic Study of Compression Techniques
- arxiv url: http://arxiv.org/abs/2406.02500v3
- Date: Mon, 17 Mar 2025 14:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:34:45.117669
- Title: Towards Efficient Mixture of Experts: A Holistic Study of Compression Techniques
- Title(参考訳): エキスパートの効率的な混合に向けて:圧縮技術に関する全体論的研究
- Authors: Shwai He, Daize Dong, Liang Ding, Ang Li,
- Abstract要約: 本稿では,Mixture of Expertsの圧縮技術に関する総合的研究を行い,効率性とスケーラビリティを両立させる。
我々は,全MoE層を除去するLayer Dropと,トランスフォーマーブロックを除去するBlock Dropを提案する。
また、個々の専門家を圧縮してパフォーマンスをさらに向上させ、Expert Trimmingとシームレスに統合できるExpert Slimmingを紹介します。
- 参考スコア(独自算出の注目度): 17.436189502801163
- License:
- Abstract: Scaling large language models has driven remarkable advancements across various domains, yet the continual increase in model size presents significant challenges for real-world deployment. The Mixture of Experts (MoE) architecture offers a promising solution by dynamically selecting and activating only a subset of experts during inference, thus substantially reducing computational costs while preserving high performance. Despite these benefits, MoE introduces new inefficiencies, such as excessive parameters and communication overhead. In this work, we present a holistic study of compression techniques for Mixture of Experts to enhance both efficiency and scalability. While recent efforts have focused on Expert Trimming, which reduces the number of experts, these approaches still suffer from considerable communication and computational costs. To address this, we propose more aggressive strategies, such as Layer Drop, which removes entire MoE layers, and Block Drop, which eliminates transformer blocks. Surprisingly, these aggressive pruning techniques not only preserve model performance but also substantially improve computation and memory efficiency. Furthermore, beyond Expert Trimming, we also introduce Expert Slimming, which compresses individual experts to further boost performance and can be seamlessly integrated with Expert Trimming. Extensive experimental results demonstrate the effectiveness of our proposed methods-Layer Drop and Block Drop-along with the comprehensive recipe that integrates Expert Slimming and Expert Trimming, achieving a 6.05x speedup with 77.1% reduced memory usage while maintaining over 92% of performance on Mixtral-8x7B. Our code is released at https://github.com/CASE-Lab-UMD/Unified-MoE-Compression.
- Abstract(参考訳): 大規模言語モデルのスケーリングは、さまざまな領域にわたる顕著な進歩を導いてきたが、モデルサイズの継続的な増加は、現実のデプロイメントにおいて大きな課題を呈している。
Mixture of Experts (MoE)アーキテクチャは、推論中に専門家のサブセットだけを動的に選択・活性化することで、高いパフォーマンスを維持しながら計算コストを大幅に削減することで、有望なソリューションを提供する。
これらの利点にもかかわらず、MoEは過剰なパラメータや通信オーバーヘッドといった新しい非効率性を導入している。
本研究では,Mixture of Expertsの圧縮技術に関する総合的研究を行い,効率性とスケーラビリティを両立させる。
近年の取り組みは専門家の数を減らしたエキスパートトリミングに重点を置いているが、これらのアプローチは依然としてかなりのコミュニケーションと計算コストに悩まされている。
この問題に対処するために、MoE層全体を除去するLayer Dropや、トランスフォーマーブロックを除去するBlock Dropなど、より積極的な戦略を提案する。
驚くべきことに、これらのアグレッシブプルーニング技術はモデル性能を保ちながら、計算とメモリ効率を大幅に改善する。
さらに、Expert Trimming以外にも、個々の専門家を圧縮してパフォーマンスをさらに向上し、Expert Trimmingとシームレスに統合できるExpert Slimmingも導入しています。
その結果,Mixtral-8x7Bの92%以上の性能を維持しながら,6.05倍の高速化を実現し,メモリ使用量の77.1%削減を実現した。
私たちのコードはhttps://github.com/CASE-Lab-UMD/Unified-MoE-Compressionで公開されています。
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。