論文の概要: MoEless: Efficient MoE LLM Serving via Serverless Computing
- arxiv url: http://arxiv.org/abs/2603.06350v1
- Date: Fri, 06 Mar 2026 14:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.998523
- Title: MoEless: Efficient MoE LLM Serving via Serverless Computing
- Title(参考訳): MoEless: サーバレスコンピューティングによる効率的なMoE LLMの実現
- Authors: Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao Wang,
- Abstract要約: MoElessは、専門家の負荷不均衡を緩和し、サーバーレスの専門家による推論を加速する、最初のサーバレスMoEサービスフレームワークである。
MoElessは軽量で層対応の予測器を使用して、入ってくる専門家の負荷分布を正確に推定し、ストラグラーを積極的に識別する。
MoElessは、最先端のソリューションと比較して、推論レイテンシを43%削減し、推論コストを84%削減する。
- 参考スコア(独自算出の注目度): 14.858661450986794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become a cornerstone of AI, driving progress across diverse domains such as content creation, search and recommendation systems, and AI-assisted workflows. To alleviate extreme training costs and advancing model scales, Mixture-of-Experts (MoE) has become a popular backbone for modern LLMs, which are commonly served in distributed deployment using expert parallelism (EP). However, MoE's sparse activation mechanism leads to severe expert load imbalance, where a few experts become overloaded while others remain idle, resulting in expert stragglers that inflate inference latency and serving cost. Existing expert load balancing solutions assume static resource configurations on serverful infrastructures, limiting expert scalability and elasticity, and resulting in either costly real-time expert swapping or degraded generation quality. We present MoEless, the first serverless MoE serving framework that mitigates expert load imbalance and accelerates inference via serverless experts. MoEless employs lightweight, layer-aware predictors to accurately estimate incoming expert load distributions and proactively identify stragglers. We design optimized expert scaling and placement strategies to maximize function locality, improve GPU utilization, and balance loads across experts and GPUs. MoEless is prototyped on top of Megatron-LM and deployed on an eight-GPU testbed. Experiments with open-source MoE models and real-world workloads show that MoEless reduces inference latency by 43% and inference cost by 84% compared to state-of-the-art solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)はAIの基盤となり、コンテンツ作成、検索とレコメンデーションシステム、AI支援ワークフローなど、さまざまな領域で進歩を遂げている。
極端なトレーニングコストとモデルスケールの進歩を緩和するため、Mixture-of-Experts(MoE)は、エキスパート並列性(EP)を使用した分散デプロイメントで一般的に使用される現代のLLMのバックボーンとして人気がある。
しかし、MoEのスパースアクティベーションメカニズムは、少数の専門家がアイドル状態にある間に過負荷になり、推論遅延とサービスコストを増大させる専門家ストラグラーをもたらす、厳しい専門家負荷の不均衡をもたらす。
既存のエキスパートロードバランシングソリューションは、サーバフルなインフラストラクチャ上で静的なリソース構成を前提としており、専門家のスケーラビリティと弾力性を制限する。
このフレームワークは、専門家の負荷不均衡を軽減し、サーバーレスの専門家による推論を加速します。
MoElessは軽量で層対応の予測器を使用して、入ってくる専門家の負荷分布を正確に推定し、ストラグラーを積極的に識別する。
最適化された専門家のスケーリングと配置戦略を設計し、関数の局所性を最大化し、GPU使用率を改善し、専門家とGPU間で負荷のバランスをとる。
MoElessはMegatron-LM上でプロトタイプされ、8GPUテストベッド上にデプロイされる。
オープンソースのMoEモデルと実世界のワークロードによる実験によると、MoElessは、最先端のソリューションと比較して、推論レイテンシを43%削減し、推論コストを84%削減している。
関連論文リスト
- Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing [29.98726492279776]
Mixture-of-Experts (MoE) は大規模言語モデルにおいて支配的なアーキテクチャとなっている。
MoEsはメモリ集約型パラメータキャッシングによって高い推論コストを発生させる。
サーバーレスコンピューティングに適した異種MOE推論システムであるRemoeを提案する。
論文 参考訳(メタデータ) (2025-12-21T10:27:50Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Taming Latency-Memory Trade-Off in MoE-Based LLM Serving via Fine-Grained Expert Offloading [7.9192039061119255]
FineMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
FineMoEは推論遅延を47%削減し、最先端ソリューションよりもエキスパートのヒット率を39%向上させる。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。