論文の概要: Optimizing Mixture-of-Experts Inference Time Combining Model Deployment and Communication Scheduling
- arxiv url: http://arxiv.org/abs/2410.17043v1
- Date: Tue, 22 Oct 2024 14:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:19.253644
- Title: Optimizing Mixture-of-Experts Inference Time Combining Model Deployment and Communication Scheduling
- Title(参考訳): モデル展開と通信スケジューリングを組み合わせたMixture-of-Experts推論時間の最適化
- Authors: Jialong Li, Shreyansh Tripathi, Lakshay Rastogi, Yiming Lei, Rui Pan, Yiting Xia,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、関連する専門家を選択的に活性化する。
MoEモデルは、オール・ツー・オール操作による高い通信オーバーヘッドによって妨げられる。
本稿では,モデル配置とオール・ツー・オール通信スケジューリングの両方を最適化したAuroraを提案する。
- 参考スコア(独自算出の注目度): 4.527504167624511
- License:
- Abstract: As machine learning models scale in size and complexity, their computational requirements become a significant barrier. Mixture-of-Experts (MoE) models alleviate this issue by selectively activating relevant experts. Despite this, MoE models are hindered by high communication overhead from all-to-all operations, low GPU utilization due to the synchronous communication constraint, and complications from heterogeneous GPU environments. This paper presents Aurora, which optimizes both model deployment and all-to-all communication scheduling to address these challenges in MoE inference. Aurora achieves minimal communication times by strategically ordering token transmissions in all-to-all communications. It improves GPU utilization by colocating experts from different models on the same device, avoiding the limitations of synchronous all-to-all communication. We analyze Aurora's optimization strategies theoretically across four common GPU cluster settings: exclusive vs. colocated models on GPUs, and homogeneous vs. heterogeneous GPUs. Aurora provides optimal solutions for three cases, and for the remaining NP-hard scenario, it offers a polynomial-time sub-optimal solution with only a 1.07x degradation from the optimal. Aurora is the first approach to minimize MoE inference time via optimal model deployment and communication scheduling across various scenarios. Evaluations demonstrate that Aurora significantly accelerates inference, achieving speedups of up to 2.38x in homogeneous clusters and 3.54x in heterogeneous environments. Moreover, Aurora enhances GPU utilization by up to 1.5x compared to existing methods.
- Abstract(参考訳): 機械学習モデルのサイズと複雑さがスケールするにつれて、その計算要求は大きな障壁となる。
Mixture-of-Experts (MoE)モデルは、関連する専門家を選択的に活性化することによってこの問題を軽減する。
それにもかかわらず、MoEモデルは、オール・ツー・オール操作による高い通信オーバーヘッド、同期通信制約によるGPU利用の低さ、異種GPU環境からの複雑さによって妨げられている。
本稿では、モデル配置とオールツーオール通信スケジューリングの両方を最適化し、これらの課題にMoE推論で対処するAuroraを提案する。
オーロラは、全通信におけるトークン送信を戦略的に順序付けすることで、最小限の通信時間を達成する。
同じデバイス上のさまざまなモデルから専門家を選別することで、GPU使用率を改善すると同時に、同期の全対全通信の制限を回避する。
我々は、Auroraの最適化戦略を、GPU上の排他的モデルとコロケーションモデルと、同種GPUと異種GPUの4つの一般的なGPUクラスタ設定で理論的に分析する。
オーロラは3つのケースに対して最適解を提供し、残りのNPハードシナリオでは、最適解から1.07xしか分解しない多項式時間部分最適解を提供する。
Auroraは、さまざまなシナリオにわたる最適なモデルデプロイメントと通信スケジューリングを通じて、MoE推論時間を最小化する最初のアプローチである。
評価の結果、オーロラは推論を著しく加速し、同種クラスタでは最大2.38倍、異種環境では3.54倍のスピードアップを達成した。
さらに、Auroraは既存の方法と比較して、最大1.5倍GPU使用率を向上させる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。