論文の概要: Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design
- arxiv url: http://arxiv.org/abs/2504.01337v1
- Date: Wed, 02 Apr 2025 03:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:48.564905
- Title: Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design
- Title(参考訳): MoE効率の向上: 専門家並列設計のための協調制約付きルーティング(C2R)戦略
- Authors: Mohan Zhang, Pingzhi Li, Jie Peng, Mufan Qiu, Tianlong Chen,
- Abstract要約: Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。
我々は、より専門的な専門家グループを促進するために、新しい協調制約付きルーティング(C2R)戦略を提案する。
我々は10下流のNLPベンチマークで0.51%と0.33%の平均性能改善を実現した。
- 参考スコア(独自算出の注目度): 36.35520569052556
- License:
- Abstract: Mixture-of-Experts (MoE) has successfully scaled up models while maintaining nearly constant computing costs. By employing a gating network to route input tokens, it selectively activates a subset of expert networks to process the corresponding token embeddings. However, in practice, the efficiency of MoE is challenging to achieve due to two key reasons: imbalanced expert activation, which leads to substantial idle time during model or expert parallelism, and insufficient capacity utilization; massive communication overhead, induced by numerous expert routing combinations in expert parallelism at the system level. Previous works typically formulate it as the load imbalance issue characterized by the gating network favoring certain experts over others or attribute it to static execution which fails to adapt to the dynamic expert workload at runtime. In this paper, we exploit it from a brand new perspective, a higher-order view and analysis of MoE routing policies: expert collaboration and specialization where some experts tend to activate broadly with others (collaborative), while others are more likely to activate only with a specific subset of experts (specialized). Our experiments reveal that most experts tend to be overly collaborative, leading to increased communication overhead from repeatedly sending tokens to different accelerators. To this end, we propose a novel collaboration-constrained routing (C2R) strategy to encourage more specialized expert groups, as well as to improve expert utilization, and present an efficient implementation of MoE that further leverages expert specialization. We achieve an average performance improvement of 0.51% and 0.33% on LLaMA-MoE and Qwen-MoE respectively across ten downstream NLP benchmarks, and reduce the all2all communication costs between GPUs, bringing an extra 20%-30% total running time savings on top of the existing SoTA, i.e. MegaBlocks.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。
入力トークンをルーティングするためにゲーティングネットワークを使用することで、専門家ネットワークのサブセットを選択的に活性化し、対応するトークン埋め込みを処理する。
しかし、実際には、専門家のアクティベーションの不均衡、モデルや専門家の並列化におけるかなりのアイドル時間、キャパシティ利用の不足、システムレベルでのエキスパートの並列化における多数の専門家のルーティングの組み合わせによって引き起こされる大量の通信オーバーヘッドという2つの主要な理由により、MoEの効率は達成できない。
従来の作業は、通常、負荷不均衡の問題として、特定の専門家を他よりも好むゲーティングネットワークや、実行時に動的専門家のワークロードに適応できない静的実行を特徴とする、負荷不均衡の問題として、それを定式化します。
専門家の協力と専門化: ある専門家が他の専門家と広範囲に活性化する傾向にある一方で、ある専門家が特定の専門家のサブセット(特別化)でのみ活性化する傾向にある。
実験の結果、ほとんどの専門家は過剰に協力的であり、異なるアクセラレーターにトークンを何度も送ることによる通信オーバーヘッドが増大する傾向にあることがわかった。
この目的のために,より専門的な専門家グループを育成し,専門家の活用を向上するための新しい協調制約付きルーティング(C2R)戦略を提案し,専門家の専門化をさらに活用するMoEの効率的な実装を提案する。
我々は、LLaMA-MoEとQwen-MoEの平均性能改善を10下流NLPベンチマークでそれぞれ0.51%、Qwen-MoEで0.33%達成し、GPU間の全通信コストを削減し、既存のSoTA、すなわちMegaBlocks上でさらに20%から30%のランニング時間節約を実現した。
関連論文リスト
- MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition [61.91764883512776]
我々は,専門家のためのコラボレーション・コンペティション・モジュールからなる,革新的なPEFT手法であるTeamLoRAを紹介する。
そうすることで、TeamLoRAは専門家を"チーム"として内部のコラボレーションや競争に結び付け、マルチタスク学習のためのより高速で正確なPEFTパラダイムを可能にします。
論文 参考訳(メタデータ) (2024-08-19T09:58:53Z) - HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou [19.113649341888532]
クアイショーのショートビデオサービスで学んだ実践的問題と教訓について紹介する。
業界では、広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムである。
論文 参考訳(メタデータ) (2024-08-10T04:25:48Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
並列戦略を重畳した新しいショートカット接続型MoE(ScMoE)アーキテクチャを提案する。
ScMoEは計算で70%から100%のオーバラップを可能にする。
ScMoEアーキテクチャに基づいて、メモリ制限推論を容易にする専門家のオフロード戦略をさらに実装する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。