Fugu-MT 論文翻訳(概要): Merging Experts into One: Improving Computational Efficiency of Mixture of Experts

論文の概要: Merging Experts into One: Improving Computational Efficiency of Mixture of Experts

arxiv url: http://arxiv.org/abs/2310.09832v3
Date: Tue, 21 Nov 2023 20:30:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 18:14:47.505472
Title: Merging Experts into One: Improving Computational Efficiency of Mixture of Experts
Title（参考訳）: 専門家を1つにマージする:専門家の混合の計算効率を改善する
Authors: Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao
Abstract要約: スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか? そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
参考スコア（独自算出の注目度）: 71.44422347502409
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Scaling the size of language models usually leads to remarkable advancements in NLP tasks. But it often comes with a price of growing computational cost. Although a sparse Mixture of Experts (MoE) can reduce the cost by activating a small subset of parameters (e.g., one expert) for each input, its computation escalates significantly if increasing the number of activated experts, limiting its practical utility. Can we retain the advantages of adding more experts without substantially increasing the computational costs? In this paper, we first demonstrate the superiority of selecting multiple experts and then propose a computation-efficient approach called \textbf{\texttt{Merging Experts into One}} (MEO), which reduces the computation cost to that of a single expert. Extensive experiments show that MEO significantly improves computational efficiency, e.g., FLOPS drops from 72.0G of vanilla MoE to 28.6G (MEO). Moreover, we propose a token-level attention block that further enhances the efficiency and performance of token-level MEO, e.g., 83.3\% (MEO) vs. 82.6\% (vanilla MoE) average score on the GLUE benchmark. Our code will be released upon acceptance. Code will be released at: \url{https://github.com/Shwai-He/MEO}.
Abstract（参考訳）: 言語モデルのサイズを拡大することは、通常、NLPタスクにおいて顕著な進歩をもたらす。しかし、しばしば計算コストが増加するという価格が伴う。スパースミキチャー・オブ・エキスパート(MoE)は、入力ごとにパラメータの小さなサブセット(例えば1つのエキスパート)を活性化することでコストを削減できるが、その計算はアクティベートされた専門家の数を増やして実用性を制限すると著しく増大する。計算コストを大幅に高めることなく、専門家を増やすという利点を維持できるだろうか? 本稿では,まず,複数の専門家を選択することの優位性を実証し,その上で,計算コストを1人の専門家に還元する「textbf{\texttt{Merging Experts into One}} (MEO)」という計算効率の高い手法を提案する。大規模な実験により、MEOは計算効率を著しく改善し、例えば、FLOPSはバニラMoEの72.0Gから28.6G(MEO)へと低下する。さらに,トークンレベルのMEO(例えば 83.3\% (MEO) 対 82.6\% (vanilla MoE) 平均スコア) の GLUE ベンチマークにおける効率と性能をさらに向上させるトークンレベルの注目ブロックを提案する。私たちのコードは受け入れ次第解放されます。コードは \url{https://github.com/shwai-he/meo} でリリースされる。

関連論文リスト

eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。 eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文参考訳（メタデータ） (2025-03-10T01:11:52Z)
Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts [9.393481672669564]
Mixture of Experts (MoE)は、スパースエキスパートアクティベーションを活用することで、大規模な言語モデルをスケールするための効果的なアーキテクチャである。 MoEは不均衡なトークン・ツー・エキスパートの割り当てによって推論の非効率に悩まされ、一部の専門家はオーバーロードされ、他の専門家は未使用のままである。我々は,(1)MoEの最大遅延を制御するために過負荷のトークンを廃棄するtextbftextitCapacity-Aware Token Drop,(2)過負荷のトークンを未利用の専門家に再配置するtextbftextitCapacity-Aware Token Rerouteの2つの主要な手法を含むキャパシティ・アウェア推論を提案する。
論文参考訳（メタデータ） (2025-03-07T01:11:39Z)
MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。 Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文参考訳（メタデータ） (2024-11-01T20:37:58Z)
Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文参考訳（メタデータ） (2024-10-24T17:54:41Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文参考訳（メタデータ） (2024-07-04T20:59:20Z)
Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs [30.07344792770254]
我々は,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert Pruning)と呼ばれる勾配のない進化戦略を導入する。 EEPは、ダウンストリームタスクのパフォーマンスを維持したり改善したりしながら、モデル推論(すなわち、勾配計算をしない)とより大きな疎性にのみ依存する。実験の結果,Mixtral 8times7$B-Instructのエキスパートの75%が,性能損失を最小限に抑えたパラメータの大幅な削減を達成できた。
論文参考訳（メタデータ） (2024-07-01T03:57:35Z)
Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。ルーティング統計を利用したM-SMoEを提案する。我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文参考訳（メタデータ） (2023-10-02T16:51:32Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。