論文の概要: Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing
- arxiv url: http://arxiv.org/abs/2512.18674v1
- Date: Sun, 21 Dec 2025 10:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.451147
- Title: Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing
- Title(参考訳): Remoe: サーバレスコンピューティングにおける効率的かつ低コストなMoE推論を目指して
- Authors: Wentao Liu, Yuhao Hu, Ruiting Zhou, Baochun Li, Ne Wang,
- Abstract要約: Mixture-of-Experts (MoE) は大規模言語モデルにおいて支配的なアーキテクチャとなっている。
MoEsはメモリ集約型パラメータキャッシングによって高い推論コストを発生させる。
サーバーレスコンピューティングに適した異種MOE推論システムであるRemoeを提案する。
- 参考スコア(独自算出の注目度): 29.98726492279776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has become a dominant architecture in large language models (LLMs) due to its ability to scale model capacity via sparse expert activation. Meanwhile, serverless computing, with its elasticity and pay-per-use billing, is well-suited for deploying MoEs with bursty workloads. However, the large number of experts in MoE models incurs high inference costs due to memory-intensive parameter caching. These costs are difficult to mitigate via simple model partitioning due to input-dependent expert activation. To address these issues, we propose Remoe, a heterogeneous MoE inference system tailored for serverless computing. Remoe assigns non-expert modules to GPUs and expert modules to CPUs, and further offloads infrequently activated experts to separate serverless functions to reduce memory overhead and enable parallel execution. We incorporate three key techniques: (1) a Similar Prompts Searching (SPS) algorithm to predict expert activation patterns based on semantic similarity of inputs; (2) a Main Model Pre-allocation (MMP) algorithm to ensure service-level objectives (SLOs) via worst-case memory estimation; and (3) a joint memory and replica optimization framework leveraging Lagrangian duality and the Longest Processing Time (LPT) algorithm. We implement Remoe on Kubernetes and evaluate it across multiple LLM benchmarks. Experimental results show that Remoe reduces inference cost by up to 57% and cold start latency by 47% compared to state-of-the-art baselines.
- Abstract(参考訳): Mixture-of-Experts (MoE) は、エキスパートアクティベーションをスパースすることでモデル容量を拡張できるため、大規模言語モデル(LLM)において支配的なアーキテクチャとなっている。
一方、サーバーレスコンピューティングは、弾力性とペイパーユース課金を持ち、バーストのあるワークロードでMoEをデプロイするのに適しています。
しかし、MoEモデルの多くの専門家は、メモリ集約型パラメータキャッシングによって高い推論コストを発生させる。
これらのコストは、入力依存のエキスパートアクティベーションによる単純なモデルのパーティショニングによって軽減するのは難しい。
これらの問題に対処するために、サーバーレスコンピューティングに適した不均一なMoE推論システムであるRemoeを提案する。
RemoeはGPUに非専門家モジュールを割り当て、CPUに専門家モジュールを割り当てると同時に、アクティベートされていない専門家を頻繁にオフロードして、サーバーレス関数を分離することで、メモリオーバーヘッドを低減し、並列実行を可能にする。
入力のセマンティックな類似性に基づいて専門家のアクティベーションパターンを予測するSPSアルゴリズムと、最悪のメモリ推定によるサービスレベル目標(SLO)を保証するMMPアルゴリズムと、ラグランジアン双対性とLPTアルゴリズムを利用した共同メモリとレプリカ最適化フレームワークの3つの主要な手法を組み込んだ。
Kubernetes上でRemoeを実装し、複数のLLMベンチマークで評価しています。
実験の結果,Remoeは最先端のベースラインに比べて推論コストを最大57%削減し,コールドスタート遅延を47%削減した。
関連論文リスト
- MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts [29.437264687850874]
提案するMoE-SpeQは,投機的実行と専門家のオフロードを共設計した新しい推論システムである。
MoE-SpeQは、将来のトークンに必要な専門家のシーケンスを予測するために、小さなオンデバイスドラフトモデルを採用している。
Phi-MoEモデルでは,MoE-SpeQは最先端のオフロードフレームワークよりも2.34倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-18T03:40:19Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - Taming Latency-Memory Trade-Off in MoE-Based LLM Serving via Fine-Grained Expert Offloading [7.9192039061119255]
FineMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
FineMoEは推論遅延を47%削減し、最先端ソリューションよりもエキスパートのヒット率を39%向上させる。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - EdgeMoE: Empowering Sparse Large Language Models on Mobile Devices [3.3947808667959536]
EdgeMoEは、Mix-of-expert (MoE) LLM用のオンデバイス推論エンジンである。
非専門家の重みはデバイスメモリに保持されるが、専門家の重みは外部ストレージに保持され、アクティベート時にのみメモリにフェッチされる。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。