論文の概要: GEM: GPU-Variability-Aware Expert to GPU Mapping for MoE Systems
- arxiv url: http://arxiv.org/abs/2605.19945v1
- Date: Tue, 19 May 2026 15:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.457844
- Title: GEM: GPU-Variability-Aware Expert to GPU Mapping for MoE Systems
- Title(参考訳): GEM: MoEシステムのためのGPUマッピングの専門家
- Authors: Sourish Wawdhane, Avinash Kumar, Poulami Das,
- Abstract要約: Mixture-of-Expert(MoE)モデルは、より小さな専門家を採用し、トークンごとにサブセットだけを活性化することによって、効率的な推論を可能にする。
我々は、MoEモデルのGPUマッピングにGPU変数を意識した専門家のためのフレームワークであるGEMを提案する。
実験の結果,GEMはベースラインに比べて平均で7.9%,最大16.5%のレイテンシ向上を実現している。
- 参考スコア(独自算出の注目度): 2.7564583149786075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Expert (MoE) models enable efficient inference by employing smaller experts and activating only a subset of them per token. MoE serving engines distribute experts across multiple GPUs and route tokens to appropriate GPUs at inference time based on experts activated. They process tokens in lock-step fashion, where tokens within a batch must finish processing before proceeding to the next layer. This synchronization barrier acts as a critical bottleneck because the performance of MoE models is limited by the straggler GPU that finishes last. Stragglers emerge when too many heavily used experts are placed on the same GPU or the slowest GPU. While prior works place experts that balance token loads across GPUs, they all overlook GPU variability and often place highly used experts on the slowest GPUs. We propose GEM, GPU-variability-aware Expert Mapping, a framework for GPU variability-aware expert to GPU mapping for MoE models. GEM exploits two insights. First, we must place experts such that each GPU receives non-uniform token loads based on their variability and they all finish processing a layer at about the same time. Our studies show that there are two types of experts: consistent that are used most of the time and temporal that are often used together for the remaining time. Our second insight is that we must place simultaneously used consistent and temporal experts on different GPUs and avoid placing them on slower GPUs to reduce slowdown. GEM gathers the variability profile of GPUs for each model and task and uses the token load distributions per task to map experts to GPUs. Our experiments show that GEM improves end-to-end latency by 7.9% on average and by up to 16.5% compared to the baseline.
- Abstract(参考訳): Mixture-of-Expert(MoE)モデルは、より小さな専門家を採用し、トークンごとにサブセットだけを活性化することによって、効率的な推論を可能にする。
MoEサービスエンジンは、複数のGPUに専門家を分散し、アクティベートされたエキスパートに基づいて、推論時に適切なGPUにトークンをルーティングする。
トークンはロックステップで処理され、バッチ内のトークンは次のレイヤに進む前に処理を終了しなければならない。
この同期障壁は、MoEモデルのパフォーマンスが最後に終わるストラグラーGPUによって制限されているため、重要なボトルネックとして機能する。
非常に多く使用される専門家が同じGPUや最も遅いGPUに配置されていると、ストラグラーが現れる。
以前の作業では、GPU間でトークンロードのバランスをとる専門家が配置されていたが、これらはすべてGPUの可変性を見落とし、最も遅いGPUでよく使用される専門家が配置される。
我々は,GPU変数を意識したエキスパートマッピング(Expert Mapping)として,GPU変数を意識したエキスパートマッピング(Expert Mapping)を提案する。
GEMは2つの洞察を利用する。
まず、各GPUが可変性に基づいて一様でないトークンロードを受け取り、各GPUがほぼ同時に処理を完了するように専門家を配置する必要があります。
私たちの研究によると、専門家には2つのタイプがあることが示されています。
第2の洞察は、異なるGPU上で、一貫性と時間的な専門家を同時に使用し、スローダウンを減らすために、遅いGPUにそれらを置くことを避けることです。
GEMは、各モデルとタスクのGPUの変動プロファイルを収集し、タスク毎のトークン負荷分布を使用して、専門家をGPUにマップする。
実験の結果,GEMはベースラインに比べて平均で7.9%,最大16.5%のレイテンシ向上を実現している。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs [26.00138507762884]
HeterMoEは、異種GPU上でMoEモデルを効率的にトレーニングするシステムである。
HeterMoEは既存のMoEトレーニングシステムと比較して最大2.3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-04-04T18:55:52Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
121.4%と30.8%から2.3%に減少し、H100のトレーニングと推論のGPT3モデルの遅延を予測する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - Turn Waste into Worth: Rectifying Top-$k$ Router of MoE [111.12838294273033]
MoEモデルは、その計算効率のために、大きな言語モデルのトレーニングに人気がある。
一般的に使用される上位$のルーティングメカニズムは、アンバランスなルーティングのために冗長性とメモリコストに悩まされる。
ドロップトークンとパディングに対処するため,GPU内整流とFill-in整流を含む整流化を提案する。
これらの組み合わせは、バニラトップ1ルータの精度を4.7%上回る優れた性能を達成する。
論文 参考訳(メタデータ) (2024-02-17T06:23:27Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - SMORE: Knowledge Graph Completion and Multi-hop Reasoning in Massive
Knowledge Graphs [147.73127662757335]
我々は、知識グラフ(KG)におけるシングルホップおよびマルチホップ推論のための最初の汎用フレームワークであるスケーラブルなマルチホップ推論(SMORE)を提案する。
シングルマシンのSMOREはFreebase KG(86Mエンティティ、338Mエッジ)でマルチホップ推論を行うことができる。
SMOREは、従来のマルチホップKGフレームワークよりもスループット(トレーニング速度)を、最小のGPUメモリ要件で2.2倍向上させる。
論文 参考訳(メタデータ) (2021-10-28T05:02:33Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。