論文の概要: FlashDMoE: Fast Distributed MoE in a Single Kernel
- arxiv url: http://arxiv.org/abs/2506.04667v1
- Date: Thu, 05 Jun 2025 06:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.561425
- Title: FlashDMoE: Fast Distributed MoE in a Single Kernel
- Title(参考訳): FlashDMoE: 単一カーネルでの高速分散MoE
- Authors: Osayamen Jonathan Aimuyo, Byungsoo Oh, Rachee Singh,
- Abstract要約: FlashDMoEは、専門家の計算とGPU間通信を永続的なGPUカーネルに融合させる、完全にGPU対応のMoE演算子である。
我々は,FlashDMoE のレイテンシが textbf6x 未満, textbf5,7x のスループットが向上し, textbf4x のスケーリング効率が向上し, textbf9x のGPU利用率が最先端のベースラインよりも向上したことを示す。
- 参考スコア(独自算出の注目度): 2.246222223318928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computational sparsity of Mixture-of-Experts (MoE) models enables sub-linear growth in compute cost as model size increases, offering a scalable path to training massive neural networks. However, existing implementations suffer from \emph{low GPU utilization}, \emph{significant latency overhead}, and a fundamental \emph{inability to leverage task locality}, primarily due to CPU-managed scheduling, host-initiated communication, and frequent kernel launches. To overcome these limitations, we develop FlashDMoE, a fully GPU-resident MoE operator that fuses expert computation and inter-GPU communication into a \emph{single persistent GPU kernel}. FlashDMoE enables fine-grained pipelining of dispatch, compute, and combine phases, eliminating launch overheads and reducing idle gaps. Its device-initiated communication protocol introduces \emph{payload-efficient} data transfers, significantly shrinking buffer sizes in sparsely activated MoE layers. When evaluated on a single 8-H100 GPU node with MoE models having up to 128 experts and 16K token sequences, FlashDMoE achieves up to \textbf{6}x lower latency, \textbf{5,7}x higher throughput, \textbf{4}x better weak scaling efficiency, and \textbf{9}x higher GPU utilization compared to state-of-the-art baselines, despite using FP32 while baselines use FP16. FlashDMoE demonstrates that principled GPU kernel-hardware co-design is key to unlocking the performance ceiling of large-scale distributed ML workloads.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルの計算空間は、モデルのサイズが大きくなるにつれて計算コストのサブ線形成長を可能にし、大規模なニューラルネットワークをトレーニングするためのスケーラブルなパスを提供する。
しかし、既存の実装では、CPU管理されたスケジューリング、ホスト開始通信、頻繁なカーネル起動によって、‘emph{low GPU utilization}’、‘emph{significant latency overhead}’、‘emph{inability to leverage task locality}’という基本的な‘emph{inability’に悩まされている。
これらの制限を克服するために,専門的な計算処理とGPU間通信を融合した,完全にGPU対応のMoE演算子であるFlashDMoEを開発した。
FlashDMoEは、ディスパッチ、計算、フェーズの組み合わせ、起動オーバーヘッドの排除、アイドルギャップの削減を可能にする。
デバイスを起動する通信プロトコルでは,疎活性化したMoE層におけるバッファサイズを大幅に縮小する,データ転送のemph{payload- efficient}を導入している。
最大128のエキスパートと16Kのトークンシーケンスを持つMoEモデルを持つ単一の8-H100 GPUノードで評価すると、FlashDMoEは、FP32を使用しながらベースラインがFP16を使用しているにも関わらず、FP32を使用しているにもかかわらず、最大で \textbf{6}xの低レイテンシ、 \textbf{5,7}xの高スループット、 \textbf{4}xの低スケーリング効率、 \textbf{9}xの低スケール効率、および \textbf{9}xの高GPU使用率を達成できる。
FlashDMoEは、GPUカーネルハードウェアの共同設計が、大規模な分散MLワークロードのパフォーマンス天井をアンロックする鍵であることを実証している。
関連論文リスト
- BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - FloE: On-the-Fly MoE Inference on Memory-constrained GPU [22.2581000412208]
FloEは、わずかに活性化された専門家の中に、未解決の相当な冗長性が存在するという洞察に基づいて構築されている。
FloEはMixtral-8x7Bのエキスパートあたりのパラメータの9.3倍の圧縮を実現している。
メモリフットプリントを最大8.5倍に削減し、たった11GBのVRAMでGPUにデプロイできる。
論文 参考訳(メタデータ) (2025-05-09T10:53:47Z) - MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。
大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文 参考訳(メタデータ) (2025-04-03T04:20:44Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。