Fugu-MT 論文翻訳(概要): MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing

論文の概要: MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing

arxiv url: http://arxiv.org/abs/2502.06643v1
Date: Mon, 10 Feb 2025 16:34:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.525205
Title: MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing
Title（参考訳）: MoETuner: バランスのとれたエキスパート配置とトークンルーティングを併用したエキスパートの最適化
Authors: Seokjin Go, Divya Mahajan,
Abstract要約: Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。 MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
参考スコア（独自算出の注目度）: 0.6445605125467574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts (MoE) model architecture has emerged as a promising solution for scaling transformer models efficiently, offering sparse activation that reduces computational costs while increasing model capacity. However, as MoE models scale, they need to be distributed across GPU devices, thus face critical performance bottlenecks due to their large memory footprint. Expert parallelism distributes experts across GPUs, however, faces key challenges including an unbalanced token routing and expert activation, resulting in communication tail latency and processing inefficiencies. While existing solutions address some of these issues, they fail to resolve the dual challenges of load imbalance and communication skew. The imbalance in token processing load across experts causes uneven processing times on different GPUs, while communication skew between GPUs leads to unbalanced inter-GPU data transfers. These factors degrade the performance of MoE models by increasing tail latency and reducing overall throughput. To address these limitations, we propose an Integer Linear Programming (ILP) formulation to optimize expert placement by jointly considering token load, communication, and computation costs. We exploit the property that there is a token routing dependency across layers, where tokens routed to a specific expert in one layer are likely to be routed to a limited set of experts in the subsequent layer. Our solution, MoETuner, offers an optimal expert-to-GPU assignment that minimizes inter-GPU token routing costs and balances token processing across devices, thereby reducing tail latency and end-to-end execution time. Experimental results demonstrate 9.3% and 17.5% of end-to-end speedups for single-node and multi-node inference respectively, showcasing the potential of our ILP-based optimization for offering expert parallel solutions for next-generation MoEs.
Abstract（参考訳）: Mixture-of-Experts (MoE)モデルアーキテクチャはトランスフォーマーモデルを効率的にスケールするための有望なソリューションとして登場し、モデルキャパシティを増大させながら計算コストを削減できる疎活性化を提供する。しかし、MoEモデルはスケールするため、GPUデバイスに分散する必要があるため、メモリフットプリントが大きいため、パフォーマンス上の重大なボトルネックに直面している。しかし、エキスパート並列性は、専門家をGPUに分散させ、不均衡なトークンルーティングや専門家のアクティベーションといった重要な課題に直面している。既存のソリューションはこれらの問題のいくつかに対処するが、負荷不均衡と通信歪という2つの課題を解決できない。専門家間でのトークン処理負荷の不均衡は、異なるGPU上での不均一な処理時間を引き起こし、一方、GPU間の通信スキューは、GPU間のデータ転送の不均衡を引き起こす。これらの要因は、テールレイテンシを増大させ、全体的なスループットを低下させることで、MoEモデルの性能を低下させる。これらの制約に対処するため、トークンの負荷、通信、計算コストを共同で考慮し、専門家の配置を最適化するInteger Linear Programming (ILP) の定式化を提案する。あるレイヤで特定の専門家にルーティングされたトークンは、その後のレイヤで限られた専門家にルーティングされる可能性が高い。当社のソリューションであるMoETunerは、GPUトークン間のルーティングコストを最小限に抑え、デバイス間でトークン処理のバランスを保ち、テールレイテンシとエンドツーエンドの実行時間を短縮する、最適な専門家からGPUへの割り当てを提供します。実験結果から、単一ノードとマルチノード推論におけるエンドツーエンドのスピードアップの9.3%と17.5%が示され、次世代のMoEに専門家による並列ソリューションを提供するためのICPベースの最適化の可能性を示している。

関連論文リスト

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳（メタデータ） (2025-03-11T14:15:01Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文参考訳（メタデータ） (2024-01-25T03:36:39Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。