論文の概要: Optimizing Distributed Deployment of Mixture-of-Experts Model Inference in Serverless Computing
- arxiv url: http://arxiv.org/abs/2501.05313v1
- Date: Thu, 09 Jan 2025 15:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:10.248471
- Title: Optimizing Distributed Deployment of Mixture-of-Experts Model Inference in Serverless Computing
- Title(参考訳): サーバレスコンピューティングにおけるMixture-of-Expertsモデル推論の分散デプロイの最適化
- Authors: Mengfan Liu, Wei Wang, Chuan Wu,
- Abstract要約: 現在、Mixture-of-Experts (MoE) モデルはモデルアーキテクチャの主流となっている。
サーバレスプラットフォーム上での最適化されたMoEモデルデプロイメントと分散推論について検討する。
私たちの設計では、CPUクラスタと比較して、すべてのMoE層の請求コストを少なくとも75.67%削減しています。
- 参考スコア(独自算出の注目度): 9.217991144854851
- License:
- Abstract: With the advancement of serverless computing, running machine learning (ML) inference services over a serverless platform has been advocated, given its labor-free scalability and cost effectiveness. Mixture-of-Experts (MoE) models have been a dominant type of model architectures to enable large models nowadays, with parallel expert networks. Serving large MoE models on serverless computing is potentially beneficial, but has been underexplored due to substantial challenges in handling the skewed expert popularity and scatter-gather communication bottleneck in MoE model execution, for cost-efficient serverless MoE deployment and performance guarantee. We study optimized MoE model deployment and distributed inference serving on a serverless platform, that effectively predict expert selection, pipeline communication with model execution, and minimize the overall billed cost of serving MoE models. Especially, we propose a Bayesian optimization framework with multi-dimensional epsilon-greedy search to learn expert selections and optimal MoE deployment achieving optimal billed cost, including: 1) a Bayesian decision-making method for predicting expert popularity; 2) flexibly pipelined scatter-gather communication; and 3) an optimal model deployment algorithm for distributed MoE serving. Extensive experiments on AWS Lambda show that our designs reduce the billed cost of all MoE layers by at least 75.67% compared to CPU clusters while maintaining satisfactory inference throughput. As compared to LambdaML in serverless computing, our designs achieves 43.41% lower cost with a throughput decrease of at most 18.76%.
- Abstract(参考訳): サーバレスコンピューティングの進歩により、サーバレスプラットフォーム上で機械学習(ML)推論サービスを実行することが提唱された。
現在、Mixture-of-Experts (MoE) モデルは、大規模なモデルを並列専門家ネットワークで実現するための支配的なモデルアーキテクチャである。
サーバレスコンピューティングで大規模なMoEモデルを実行することは、潜在的に有益であるが、コスト効率のよいサーバレスMoEデプロイメントとパフォーマンス保証のために、歪んだ専門家の人気と、MoEモデル実行における散在する通信ボトルネックを扱うという大きな課題のために、過小評価されている。
我々は、サーバーレスプラットフォーム上でのMoEモデルのデプロイと分散推論を最適化し、専門家の選択を効果的に予測し、モデル実行によるパイプライン通信を行い、MoEモデルを提供する全体の費用を最小化する。
特に,多次元のepsilon-greedy探索を用いたベイズ最適化フレームワークを提案する。
1) 専門家の人気を予測するためのベイズ的意思決定方法
2) 柔軟にパイプライン化された散布機通信
3)分散MoEサービスのための最適モデル配置アルゴリズム。
AWS Lambdaの大規模な実験では、十分な推論スループットを維持しながら、CPUクラスタと比較して、すべてのMoE層の課金コストを少なくとも75.67%削減したことが示されています。
サーバレスコンピューティングのLambdaMLと比較して、当社の設計は43.41%低コストで、スループットは18.76%低下している。
関連論文リスト
- Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Greening Large Language Models of Code [13.840108405182407]
Avatarは、コードの大規模な言語モデルからデプロイ可能なモデルを構築する、新しいアプローチである。
アバターの鍵となる考え方は、多目的構成チューニング問題として言語モデルの最適化を定式化することである。
私たちはAvatarを使って、小型の3MBの最適化モデルを作成しました。
論文 参考訳(メタデータ) (2023-09-08T02:20:44Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z) - Towards Demystifying Serverless Machine Learning Training [19.061432528378788]
本稿では、サーバーレスインフラストラクチャ上で分散機械学習トレーニングを体系的に比較研究する。
サーバレスインフラストラクチャを選択する際に考慮すべきコスト/パフォーマンストレードオフをキャプチャする分析モデルを開発する。
論文 参考訳(メタデータ) (2021-05-17T13:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。