Fugu-MT 論文翻訳(概要): DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

論文の概要: DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

arxiv url: http://arxiv.org/abs/2401.06066v1
Date: Thu, 11 Jan 2024 17:31:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 13:32:30.392617
Title: DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
Title（参考訳）: DeepSeekMoE:Mixture-of-Experts言語モデルの究極的な専門家スペシャライゼーションを目指して
Authors: Damai Dai, Chengqi Deng, Chenggang Zhao, R.X. Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y.K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang
Abstract要約: 本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。 1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。 We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
参考スコア（独自算出の注目度）: 26.447210565680116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of large language models, Mixture-of-Experts (MoE) is a promising architecture for managing computational costs when scaling up model parameters. However, conventional MoE architectures like GShard, which activate the top-$K$ out of $N$ experts, face challenges in ensuring expert specialization, i.e. each expert acquires non-overlapping and focused knowledge. In response, we propose the DeepSeekMoE architecture towards ultimate expert specialization. It involves two principal strategies: (1) finely segmenting the experts into $mN$ ones and activating $mK$ from them, allowing for a more flexible combination of activated experts; (2) isolating $K_s$ experts as shared ones, aiming at capturing common knowledge and mitigating redundancy in routed experts. Starting from a modest scale with 2B parameters, we demonstrate that DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5 times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly approaches the performance of its dense counterpart with the same number of total parameters, which set the upper bound of MoE models. Subsequently, we scale up DeepSeekMoE to 16B parameters and show that it achieves comparable performance with LLaMA2 7B, with only about 40% of computations. Further, our preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently validate its substantial advantages over the GShard architecture, and show its performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%) of computations.
Abstract（参考訳）: 大規模言語モデルの時代において、Mixture-of-Experts (MoE) はモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャである。しかし、GShardのような従来のMoEアーキテクチャは、$N$のエキスパートのうち最高額のK$を活性化し、専門家の専門化を保証するという課題に直面している。本稿では,DeepSeekMoEアーキテクチャを究極的専門化に向けて提案する。 1) 専門家をmn$ 1 に細かく分割し、それらから $mk$ を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。 2Bパラメータを持つ控えめなスケールから始めて、DeepSeekMoE 2Bは、エキスパートパラメータと計算の1.5倍のGShard 2.9Bで同等のパフォーマンスを達成することを示した。さらに、DeepSeekMoE 2Bは、MoEモデルの上限を設定できる合計パラメータの数と同じで、その密度の高い性能にほぼ近づいた。次に、DeepSeekMoEを16Bパラメータにスケールアップし、LLaMA2 7Bと同等の性能を示し、計算の約40%しか処理しない。さらに、DeepSeekMoEを145Bパラメータにスケールアップするための予備的な取り組みは、GShardアーキテクチャに対するその実質的な優位性を一貫して評価し、28.5%(18.2%)の計算しか使用せず、DeepSeek 67Bに匹敵する性能を示した。

関連論文リスト

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.54207710201183]
MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
論文参考訳（メタデータ） (2025-05-27T16:40:21Z)
On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文参考訳（メタデータ） (2025-05-16T04:58:18Z)
Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
大規模MOEモデルにおける領域の特殊化と専門的冗長性について検討する。本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。提案手法は,DeepSeek-R1を完全かつ半分のエキスパートで,同じメモリ予算で同等の性能と2.99タイムのスループットを達成できる。
論文参考訳（メタデータ） (2025-04-09T11:34:06Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文参考訳（メタデータ） (2025-02-18T15:09:58Z)
Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient [4.34286535607654]
我々は,高密度モデルとMoEモデルに対する共同スケーリング法則を提案し,アクティブパラメータ数,データセットサイズ,エキスパート数といった重要な要素を取り入れた。驚くべきことに、従来の知恵とは対照的に、MoEモデルは高密度モデルよりもメモリ効率が高いことが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:38Z)
MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。 Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文参考訳（メタデータ） (2024-11-01T20:37:58Z)
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2024-08-15T17:19:12Z)
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文参考訳（メタデータ） (2024-07-02T03:11:13Z)
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [118.06260386652778]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文参考訳（メタデータ） (2024-05-07T15:56:43Z)
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-06T03:06:33Z)
Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文参考訳（メタデータ） (2024-02-19T21:20:22Z)
Merging Experts into One: Improving Computational Efficiency of Mixture of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか? そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文参考訳（メタデータ） (2023-10-15T13:28:42Z)
Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。ルーティング統計を利用したM-SMoEを提案する。我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文参考訳（メタデータ） (2023-10-02T16:51:32Z)
Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文参考訳（メタデータ） (2023-09-11T13:31:00Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。