論文の概要: FlashDMoE: Fast Distributed MoE in a Single Kernel
- arxiv url: http://arxiv.org/abs/2506.04667v1
- Date: Thu, 05 Jun 2025 06:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.561425
- Title: FlashDMoE: Fast Distributed MoE in a Single Kernel
- Title(参考訳): FlashDMoE: 単一カーネルでの高速分散MoE
- Authors: Osayamen Jonathan Aimuyo, Byungsoo Oh, Rachee Singh,
- Abstract要約: FlashDMoEは、専門家の計算とGPU間通信を永続的なGPUカーネルに融合させる、完全にGPU対応のMoE演算子である。
我々は,FlashDMoE のレイテンシが textbf6x 未満, textbf5,7x のスループットが向上し, textbf4x のスケーリング効率が向上し, textbf9x のGPU利用率が最先端のベースラインよりも向上したことを示す。
- 参考スコア(独自算出の注目度): 2.246222223318928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computational sparsity of Mixture-of-Experts (MoE) models enables sub-linear growth in compute cost as model size increases, offering a scalable path to training massive neural networks. However, existing implementations suffer from \emph{low GPU utilization}, \emph{significant latency overhead}, and a fundamental \emph{inability to leverage task locality}, primarily due to CPU-managed scheduling, host-initiated communication, and frequent kernel launches. To overcome these limitations, we develop FlashDMoE, a fully GPU-resident MoE operator that fuses expert computation and inter-GPU communication into a \emph{single persistent GPU kernel}. FlashDMoE enables fine-grained pipelining of dispatch, compute, and combine phases, eliminating launch overheads and reducing idle gaps. Its device-initiated communication protocol introduces \emph{payload-efficient} data transfers, significantly shrinking buffer sizes in sparsely activated MoE layers. When evaluated on a single 8-H100 GPU node with MoE models having up to 128 experts and 16K token sequences, FlashDMoE achieves up to \textbf{6}x lower latency, \textbf{5,7}x higher throughput, \textbf{4}x better weak scaling efficiency, and \textbf{9}x higher GPU utilization compared to state-of-the-art baselines, despite using FP32 while baselines use FP16. FlashDMoE demonstrates that principled GPU kernel-hardware co-design is key to unlocking the performance ceiling of large-scale distributed ML workloads.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルの計算空間は、モデルのサイズが大きくなるにつれて計算コストのサブ線形成長を可能にし、大規模なニューラルネットワークをトレーニングするためのスケーラブルなパスを提供する。
しかし、既存の実装では、CPU管理されたスケジューリング、ホスト開始通信、頻繁なカーネル起動によって、‘emph{low GPU utilization}’、‘emph{significant latency overhead}’、‘emph{inability to leverage task locality}’という基本的な‘emph{inability’に悩まされている。
これらの制限を克服するために,専門的な計算処理とGPU間通信を融合した,完全にGPU対応のMoE演算子であるFlashDMoEを開発した。
FlashDMoEは、ディスパッチ、計算、フェーズの組み合わせ、起動オーバーヘッドの排除、アイドルギャップの削減を可能にする。
デバイスを起動する通信プロトコルでは,疎活性化したMoE層におけるバッファサイズを大幅に縮小する,データ転送のemph{payload- efficient}を導入している。
最大128のエキスパートと16Kのトークンシーケンスを持つMoEモデルを持つ単一の8-H100 GPUノードで評価すると、FlashDMoEは、FP32を使用しながらベースラインがFP16を使用しているにも関わらず、FP32を使用しているにもかかわらず、最大で \textbf{6}xの低レイテンシ、 \textbf{5,7}xの高スループット、 \textbf{4}xの低スケーリング効率、 \textbf{9}xの低スケール効率、および \textbf{9}xの高GPU使用率を達成できる。
FlashDMoEは、GPUカーネルハードウェアの共同設計が、大規模な分散MLワークロードのパフォーマンス天井をアンロックする鍵であることを実証している。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。