論文の概要: Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
- arxiv url: http://arxiv.org/abs/2505.21411v1
- Date: Tue, 27 May 2025 16:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.806079
- Title: Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
- Title(参考訳): Pangu Pro MoE:グループ専門家の混成
- Authors: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang,
- Abstract要約: MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。
Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
- 参考スコア(独自算出の注目度): 105.54207710201183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo.Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.
- Abstract(参考訳): 大規模言語モデルにおけるMixture of Experts (MoE)の急増は、入力トークンごとに少数のパラメータが活性化されるため、はるかに大きなモデルパラメータ数と学習能力に対して、実行コストが小さいことを保証している。
しかしながら、一部の専門家は、他の専門家よりもはるかに頻繁に活性化され、異なるデバイス上で専門家を並列に実行する際のシステム不効率につながることがよく見られる。
そこで我々は,Mixture of Grouped Experts (MoGE)を紹介した。
トークンは、事前に定義された各専門家グループ内で同じ数の専門家を起動するように制約する。
モデル実行が複数のデバイスに分散されている場合、このアーキテクチャ設計はデバイス間のバランスの取れた計算負荷を保証し、特に推論フェーズにおいてスループットを大幅に向上させる。
さらに、Ascend NPUs上でPangu Pro MoEを構築する。これは、合計72億のパラメータを持つMoGEに基づくスパースモデルであり、その内16億がトークンごとに活性化されている。
Pangu Pro MoE の構成は Ascend 300I Duo と 800I A2 に最適化されている。
我々の実験は、MoGEが実際にAscend NPUのモデルトレーニングと推論の両方において、より優れた専門家の負荷分散とより効率的な実行をもたらすことを示唆している。
Pangu Pro MoEの推論性能は1カード当たり1148トークン/秒に達し、投機的アクセラレーションにより1カードあたり1528トークン/秒に改善され、同等の32Bおよび72B Denseモデルを上回っている。
さらに,Ascend 300I Duoにおけるモデル推論のコスト対パフォーマンス比も優れた結果を得た。我々の研究では,Ascend NPUがPangu Pro MoEを大規模並列化で訓練し,100B未満のパラメータクラス内でのリードモデルとなり,GLM-Z1-32BやQwen3-32Bといった著名なオープンソースモデルよりも優れていた。
関連論文リスト
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.25404278506585]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。
このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。
我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文 参考訳(メタデータ) (2025-04-10T15:41:51Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。