論文の概要: Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2310.09832v3
- Date: Tue, 21 Nov 2023 20:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:14:47.505472
- Title: Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts
- Title(参考訳): 専門家を1つにマージする:専門家の混合の計算効率を改善する
- Authors: Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao
- Abstract要約: スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
- 参考スコア(独自算出の注目度): 71.44422347502409
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scaling the size of language models usually leads to remarkable advancements
in NLP tasks. But it often comes with a price of growing computational cost.
Although a sparse Mixture of Experts (MoE) can reduce the cost by activating a
small subset of parameters (e.g., one expert) for each input, its computation
escalates significantly if increasing the number of activated experts, limiting
its practical utility. Can we retain the advantages of adding more experts
without substantially increasing the computational costs? In this paper, we
first demonstrate the superiority of selecting multiple experts and then
propose a computation-efficient approach called \textbf{\texttt{Merging Experts
into One}} (MEO), which reduces the computation cost to that of a single
expert. Extensive experiments show that MEO significantly improves
computational efficiency, e.g., FLOPS drops from 72.0G of vanilla MoE to 28.6G
(MEO). Moreover, we propose a token-level attention block that further enhances
the efficiency and performance of token-level MEO, e.g., 83.3\% (MEO) vs.
82.6\% (vanilla MoE) average score on the GLUE benchmark. Our code will be
released upon acceptance. Code will be released at:
\url{https://github.com/Shwai-He/MEO}.
- Abstract(参考訳): 言語モデルのサイズを拡大することは、通常、NLPタスクにおいて顕著な進歩をもたらす。
しかし、しばしば計算コストが増加するという価格が伴う。
スパースミキチャー・オブ・エキスパート(MoE)は、入力ごとにパラメータの小さなサブセット(例えば1つのエキスパート)を活性化することでコストを削減できるが、その計算はアクティベートされた専門家の数を増やして実用性を制限すると著しく増大する。
計算コストを大幅に高めることなく、専門家を増やすという利点を維持できるだろうか?
本稿では,まず,複数の専門家を選択することの優位性を実証し,その上で,計算コストを1人の専門家に還元する「textbf{\texttt{Merging Experts into One}} (MEO)」という計算効率の高い手法を提案する。
大規模な実験により、MEOは計算効率を著しく改善し、例えば、FLOPSはバニラMoEの72.0Gから28.6G(MEO)へと低下する。
さらに,トークンレベルのMEO(例えば 83.3\% (MEO) 対 82.6\% (vanilla MoE) 平均スコア) の GLUE ベンチマークにおける効率と性能をさらに向上させるトークンレベルの注目ブロックを提案する。
私たちのコードは受け入れ次第解放されます。
コードは \url{https://github.com/shwai-he/meo} でリリースされる。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models [26.447210565680116]
本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
論文 参考訳(メタデータ) (2024-01-11T17:31:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。