論文の概要: Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14800v1
- Date: Thu, 22 Feb 2024 18:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:07:39.778884
- Title: Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models
- Title(参考訳): すべてのエキスパートが平等であるとは限らない: エキスパートの効率的なプルーニングとスキャッピング
- Authors: Xudong Lu, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang, Bo Zhang,
Junchi Yan, Hongsheng Li
- Abstract要約: MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
- 参考スコア(独自算出の注目度): 94.02958592636972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A pivotal advancement in the progress of large language models (LLMs) is the
emergence of the Mixture-of-Experts (MoE) LLMs. Compared to traditional LLMs,
MoE LLMs can achieve higher performance with fewer parameters, but it is still
hard to deploy them due to their immense parameter sizes. Different from
previous weight pruning methods that rely on specifically designed hardware,
this paper mainly aims to enhance the deployment efficiency of MoE LLMs by
introducing plug-and-play expert-level sparsification techniques. Specifically,
we propose, for the first time to our best knowledge, post-training approaches
for task-agnostic and task-specific expert pruning and skipping of MoE LLMs,
tailored to improve deployment efficiency while maintaining model performance
across a wide range of tasks. Extensive experiments show that our proposed
methods can simultaneously reduce model sizes and increase the inference speed,
while maintaining satisfactory performance. Data and code will be available at
https://github.com/Lucky-Lance/Expert_Sparsity.
- Abstract(参考訳): 大規模言語モデル (LLM) の進展における重要な進展は、Mixture-of-Experts (MoE) LLM の出現である。
従来のLLMと比較して、MoE LLMはより少ないパラメータで高い性能を達成することができるが、パラメータサイズが大きいためデプロイは困難である。
本論文は,特定の設計ハードウェアに依存した従来の重み付け法とは違って,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率の向上を主目的とする。
具体的には,タスク非依存およびタスク特化の専門家による,MoE LLMのプルーニングとスキップのための学習後アプローチを,我々の最も優れた知識に対して初めて提案する。
広範な実験により,提案手法は,十分な性能を維持しつつ,モデルサイズを削減し,推論速度を向上できることを示した。
データとコードはhttps://github.com/Lucky-Lance/Expert_Sparsity.comで入手できる。
関連論文リスト
- Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts
for Instruction Tuning on General Tasks [6.048370838631722]
紹介する。
-高密度モデルからスパースモデルへの移行を効率よく行うPESC(Efficient Sparsity Crafting)。
PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。
我々のスパースモデルであるCamelidaeは、他のすべてのオープンソーススパースモデルより優れており、GPT3.5と比較して優れた汎用能力を示している。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language
Models with 3D Parallelism [75.1814102438065]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts [79.82187318830955]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。