論文の概要: DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2401.06066v1
- Date: Thu, 11 Jan 2024 17:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:32:30.392617
- Title: DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models
- Title(参考訳): DeepSeekMoE:Mixture-of-Experts言語モデルの究極的な専門家スペシャライゼーションを目指して
- Authors: Damai Dai, Chengqi Deng, Chenggang Zhao, R.X. Xu, Huazuo Gao, Deli
Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y.K. Li,
Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang
- Abstract要約: 本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
- 参考スコア(独自算出の注目度): 26.447210565680116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models, Mixture-of-Experts (MoE) is a promising
architecture for managing computational costs when scaling up model parameters.
However, conventional MoE architectures like GShard, which activate the top-$K$
out of $N$ experts, face challenges in ensuring expert specialization, i.e.
each expert acquires non-overlapping and focused knowledge. In response, we
propose the DeepSeekMoE architecture towards ultimate expert specialization. It
involves two principal strategies: (1) finely segmenting the experts into $mN$
ones and activating $mK$ from them, allowing for a more flexible combination of
activated experts; (2) isolating $K_s$ experts as shared ones, aiming at
capturing common knowledge and mitigating redundancy in routed experts.
Starting from a modest scale with 2B parameters, we demonstrate that
DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5
times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly
approaches the performance of its dense counterpart with the same number of
total parameters, which set the upper bound of MoE models. Subsequently, we
scale up DeepSeekMoE to 16B parameters and show that it achieves comparable
performance with LLaMA2 7B, with only about 40% of computations. Further, our
preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently
validate its substantial advantages over the GShard architecture, and show its
performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%)
of computations.
- Abstract(参考訳): 大規模言語モデルの時代において、Mixture-of-Experts (MoE) はモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャである。
しかし、GShardのような従来のMoEアーキテクチャは、$N$のエキスパートのうち最高額のK$を活性化し、専門家の専門化を保証するという課題に直面している。
本稿では,DeepSeekMoEアーキテクチャを究極的専門化に向けて提案する。
1) 専門家をmn$ 1 に細かく分割し、それらから $mk$ を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
2Bパラメータを持つ控えめなスケールから始めて、DeepSeekMoE 2Bは、エキスパートパラメータと計算の1.5倍のGShard 2.9Bで同等のパフォーマンスを達成することを示した。
さらに、DeepSeekMoE 2Bは、MoEモデルの上限を設定できる合計パラメータの数と同じで、その密度の高い性能にほぼ近づいた。
次に、DeepSeekMoEを16Bパラメータにスケールアップし、LLaMA2 7Bと同等の性能を示し、計算の約40%しか処理しない。
さらに、DeepSeekMoEを145Bパラメータにスケールアップするための予備的な取り組みは、GShardアーキテクチャに対するその実質的な優位性を一貫して評価し、28.5%(18.2%)の計算しか使用せず、DeepSeek 67Bに匹敵する性能を示した。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - One Student Knows All Experts Know: From Sparse to Dense [12.074802848121664]
Mixture-of-experts (MoE)は、複数の専門家を含む強力なスパースアーキテクチャである。
本研究では,1つの疎いMoEと同じくらいの知識を持つ高密度学生モデル(OneS)を得るための,新しい課題である知識統合を提案する。
論文 参考訳(メタデータ) (2022-01-26T12:11:02Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。