Fugu-MT 論文翻訳(概要): Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs

論文の概要: Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs

arxiv url: http://arxiv.org/abs/2407.00945v1
Date: Mon, 1 Jul 2024 03:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 00:46:07.644973
Title: Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs
Title（参考訳）: Sparse Mixture-of-Experts言語モデルのための効率的なエキスパートプランニング:パフォーマンスの向上と推論コストの削減
Authors: Enshu Liu, Junyi Zhu, Zinan Lin, Xuefei Ning, Matthew B. Blaschko, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang,
Abstract要約: 我々は,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert Pruning)と呼ばれる勾配のない進化戦略を導入する。 EEPは、ダウンストリームタスクのパフォーマンスを維持したり改善したりしながら、モデル推論(すなわち、勾配計算をしない)とより大きな疎性にのみ依存する。実験の結果,Mixtral 8times7$B-Instructのエキスパートの75%が,性能損失を最小限に抑えたパラメータの大幅な削減を達成できた。
参考スコア（独自算出の注目度）: 30.07344792770254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of large language models (LLMs) has led to architectures with billions to trillions of parameters, posing significant deployment challenges due to their substantial demands on memory, processing power, and energy consumption. Sparse Mixture-of-Experts (SMoE) architectures have emerged as a solution, activating only a subset of parameters per token, thereby achieving faster inference while maintaining performance. However, SMoE models still face limitations in broader deployment due to their large parameter counts and significant GPU memory requirements. In this work, we introduce a gradient-free evolutionary strategy named EEP (Efficient Expert P}runing) to enhance the pruning of experts in SMoE models. EEP relies solely on model inference (i.e., no gradient computation) and achieves greater sparsity while maintaining or even improving performance on downstream tasks. EEP can be used to reduce both the total number of experts (thus saving GPU memory) and the number of active experts (thus accelerating inference). For example, we demonstrate that pruning up to 75% of experts in Mixtral $8\times7$B-Instruct results in a substantial reduction in parameters with minimal performance loss. Remarkably, we observe improved performance on certain tasks, such as a significant increase in accuracy on the SQuAD dataset (from 53.4% to 75.4%), when pruning half of the experts. With these results, EEP not only lowers the barrier to deploying SMoE models,but also challenges the conventional understanding of model pruning by showing that fewer experts can lead to better task-specific performance without any fine-tuning. Code is available at https://github.com/imagination-research/EEP.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩により、数十億から数兆のパラメータを持つアーキテクチャが実現し、メモリ、処理能力、エネルギー消費に対する大きな需要があるため、大規模なデプロイメントが困難になっている。 SMOE(Sparse Mixture-of-Experts)アーキテクチャがソリューションとして登場し、トークン当たりのパラメータのサブセットのみを活性化し、パフォーマンスを維持しながら高速な推論を実現する。しかしながら、SMoEモデルは、大きなパラメータ数と重要なGPUメモリ要件のために、より広範なデプロイメントにおいて制限に直面している。本研究では,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert P}runing)と呼ばれる勾配のない進化戦略を導入する。 EEPはモデル推論(すなわち勾配計算なし)にのみ依存し、下流タスクのパフォーマンスを維持したり改善したりしながら、より大きな疎性を達成する。 EEPは、専門家(GPUメモリを節約する)の総数と、アクティブエキスパート(推論を加速する)の数を削減できる。例えば、Mixtral 8\times 7$B-Instructで75%のエキスパートをプルーニングすると、パフォーマンスロスを最小限に抑えたパラメータが大幅に減少することを示した。 SQuADデータセット(53.4%から75.4%)の精度が大幅に向上するなど,特定のタスクのパフォーマンス向上を観察する。これらの結果により、EEPはSMoEモデルをデプロイする障壁を低くするだけでなく、より少ない専門家が微調整なしでタスク固有のパフォーマンスを向上できることを示すことによって、従来のモデルプルーニングの理解にも挑戦する。コードはhttps://github.com/imagination-research/EEP.comで公開されている。

関連論文リスト

Faster MoE LLM Inference for Extremely Large Models [75.57674991584608]
きめ細かいMoEモデルは人気を集めているが、研究は限られている。アクティベートされた専門家の数を削減すれば、特定のシナリオにおける大幅な効率改善につながる可能性がある。性能劣化を伴わずにスループットを少なくとも10%向上させることができる。
論文参考訳（メタデータ） (2025-05-06T13:41:17Z)
eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。 eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文参考訳（メタデータ） (2025-03-10T01:11:52Z)
Efficiently Editing Mixture-of-Experts Models with Compressed Experts [22.868004724309845]
完全エキスパートのコンパクト表現として機能する軽量モジュールである圧縮された専門家の概念を提案する。我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
論文参考訳（メタデータ） (2025-03-01T22:00:03Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Retraining-Free Merging of Sparse Mixture-of-Experts via Hierarchical Clustering [14.858134039539697]
疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングを提案する。 HC-SMoEはタスクに依存しないエキスパートマージフレームワークで、再トレーニングせずにSMoEモデルのパラメータを削減できる。我々は8つのゼロショット言語タスクに関する広範な実験を通じてアプローチを検証するとともに、QwenやMixtralといった大規模SMoEモデルにおいてその効果を実証する。
論文参考訳（メタデータ） (2024-10-11T07:36:14Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-08-19T03:27:15Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文参考訳（メタデータ） (2024-07-04T20:59:20Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。 PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文参考訳（メタデータ） (2024-01-05T09:58:09Z)
Merging Experts into One: Improving Computational Efficiency of Mixture of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか? そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文参考訳（メタデータ） (2023-10-15T13:28:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。