論文の概要: DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2401.06066v1
- Date: Thu, 11 Jan 2024 17:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:32:30.392617
- Title: DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models
- Title(参考訳): DeepSeekMoE:Mixture-of-Experts言語モデルの究極的な専門家スペシャライゼーションを目指して
- Authors: Damai Dai, Chengqi Deng, Chenggang Zhao, R.X. Xu, Huazuo Gao, Deli
Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y.K. Li,
Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang
- Abstract要約: 本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
- 参考スコア(独自算出の注目度): 26.447210565680116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models, Mixture-of-Experts (MoE) is a promising
architecture for managing computational costs when scaling up model parameters.
However, conventional MoE architectures like GShard, which activate the top-$K$
out of $N$ experts, face challenges in ensuring expert specialization, i.e.
each expert acquires non-overlapping and focused knowledge. In response, we
propose the DeepSeekMoE architecture towards ultimate expert specialization. It
involves two principal strategies: (1) finely segmenting the experts into $mN$
ones and activating $mK$ from them, allowing for a more flexible combination of
activated experts; (2) isolating $K_s$ experts as shared ones, aiming at
capturing common knowledge and mitigating redundancy in routed experts.
Starting from a modest scale with 2B parameters, we demonstrate that
DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5
times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly
approaches the performance of its dense counterpart with the same number of
total parameters, which set the upper bound of MoE models. Subsequently, we
scale up DeepSeekMoE to 16B parameters and show that it achieves comparable
performance with LLaMA2 7B, with only about 40% of computations. Further, our
preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently
validate its substantial advantages over the GShard architecture, and show its
performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%)
of computations.
- Abstract(参考訳): 大規模言語モデルの時代において、Mixture-of-Experts (MoE) はモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャである。
しかし、GShardのような従来のMoEアーキテクチャは、$N$のエキスパートのうち最高額のK$を活性化し、専門家の専門化を保証するという課題に直面している。
本稿では,DeepSeekMoEアーキテクチャを究極的専門化に向けて提案する。
1) 専門家をmn$ 1 に細かく分割し、それらから $mk$ を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
2Bパラメータを持つ控えめなスケールから始めて、DeepSeekMoE 2Bは、エキスパートパラメータと計算の1.5倍のGShard 2.9Bで同等のパフォーマンスを達成することを示した。
さらに、DeepSeekMoE 2Bは、MoEモデルの上限を設定できる合計パラメータの数と同じで、その密度の高い性能にほぼ近づいた。
次に、DeepSeekMoEを16Bパラメータにスケールアップし、LLaMA2 7Bと同等の性能を示し、計算の約40%しか処理しない。
さらに、DeepSeekMoEを145Bパラメータにスケールアップするための予備的な取り組みは、GShardアーキテクチャに対するその実質的な優位性を一貫して評価し、28.5%(18.2%)の計算しか使用せず、DeepSeek 67Bに匹敵する性能を示した。
関連論文リスト
- Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [118.06260386652778]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。
DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。
DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (2024-05-07T15:56:43Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE) パラダイムは、密度の高い層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分な専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。