論文の概要: MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing
- arxiv url: http://arxiv.org/abs/2502.06643v1
- Date: Mon, 10 Feb 2025 16:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:34.778794
- Title: MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing
- Title(参考訳): MoETuner: バランスのとれたエキスパート配置とトークンルーティングを併用したエキスパートの最適化
- Authors: Seokjin Go, Divya Mahajan,
- Abstract要約: Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。
MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。
本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License:
- Abstract: Mixture-of-Experts (MoE) model architecture has emerged as a promising solution for scaling transformer models efficiently, offering sparse activation that reduces computational costs while increasing model capacity. However, as MoE models scale, they need to be distributed across GPU devices, thus face critical performance bottlenecks due to their large memory footprint. Expert parallelism distributes experts across GPUs, however, faces key challenges including an unbalanced token routing and expert activation, resulting in communication tail latency and processing inefficiencies. While existing solutions address some of these issues, they fail to resolve the dual challenges of load imbalance and communication skew. The imbalance in token processing load across experts causes uneven processing times on different GPUs, while communication skew between GPUs leads to unbalanced inter-GPU data transfers. These factors degrade the performance of MoE models by increasing tail latency and reducing overall throughput. To address these limitations, we propose an Integer Linear Programming (ILP) formulation to optimize expert placement by jointly considering token load, communication, and computation costs. We exploit the property that there is a token routing dependency across layers, where tokens routed to a specific expert in one layer are likely to be routed to a limited set of experts in the subsequent layer. Our solution, MoETuner, offers an optimal expert-to-GPU assignment that minimizes inter-GPU token routing costs and balances token processing across devices, thereby reducing tail latency and end-to-end execution time. Experimental results demonstrate 9.3% and 17.5% of end-to-end speedups for single-node and multi-node inference respectively, showcasing the potential of our ILP-based optimization for offering expert parallel solutions for next-generation MoEs.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルアーキテクチャはトランスフォーマーモデルを効率的にスケールするための有望なソリューションとして登場し、モデルキャパシティを増大させながら計算コストを削減できる疎活性化を提供する。
しかし、MoEモデルはスケールするため、GPUデバイスに分散する必要があるため、メモリフットプリントが大きいため、パフォーマンス上の重大なボトルネックに直面している。
しかし、エキスパート並列性は、専門家をGPUに分散させ、不均衡なトークンルーティングや専門家のアクティベーションといった重要な課題に直面している。
既存のソリューションはこれらの問題のいくつかに対処するが、負荷不均衡と通信歪という2つの課題を解決できない。
専門家間でのトークン処理負荷の不均衡は、異なるGPU上での不均一な処理時間を引き起こし、一方、GPU間の通信スキューは、GPU間のデータ転送の不均衡を引き起こす。
これらの要因は、テールレイテンシを増大させ、全体的なスループットを低下させることで、MoEモデルの性能を低下させる。
これらの制約に対処するため、トークンの負荷、通信、計算コストを共同で考慮し、専門家の配置を最適化するInteger Linear Programming (ILP) の定式化を提案する。
あるレイヤで特定の専門家にルーティングされたトークンは、その後のレイヤで限られた専門家にルーティングされる可能性が高い。
当社のソリューションであるMoETunerは、GPUトークン間のルーティングコストを最小限に抑え、デバイス間でトークン処理のバランスを保ち、テールレイテンシとエンドツーエンドの実行時間を短縮する、最適な専門家からGPUへの割り当てを提供します。
実験結果から、単一ノードとマルチノード推論におけるエンドツーエンドのスピードアップの9.3%と17.5%が示され、次世代のMoEに専門家による並列ソリューションを提供するためのICPベースの最適化の可能性を示している。
関連論文リスト
- Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline [39.52960562420227]
混合専門家(MoE)は、計算コストを大幅に増加させることなく、数兆のパラメータまで言語モデルのスケーリングを可能にする。
オフロード技術は、メモリをCPUとディスクから利用し、I/Oと計算を並列化する。
Klotskiは、新しいエキスパート対応マルチバッチパイプラインパラダイムを通じて、パイプラインバブルを著しく低減する効率的なMoE推論エンジンである。
論文 参考訳(メタデータ) (2025-02-09T08:47:06Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。