論文の概要: Performance Characterization of Expert Router for Scalable LLM Inference
- arxiv url: http://arxiv.org/abs/2404.15153v2
- Date: Tue, 08 Oct 2024 12:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:29.713508
- Title: Performance Characterization of Expert Router for Scalable LLM Inference
- Title(参考訳): スケーラブルLLM推論のためのエキスパートルータの性能評価
- Authors: Josef Pichlmeier, Philipp Ross, Andre Luckow,
- Abstract要約: 大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。
最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。
本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
- 参考スコア(独自算出の注目度): 0.4726677580049183
- License:
- Abstract: Large Language Models (LLMs) have experienced widespread adoption across scientific and industrial domains due to their versatility and utility for diverse tasks. Nevertheless, deploying and serving these models at scale with optimal throughput and latency remains a significant challenge, primarily because of LLMs' high computational and memory demands. Specialized models optimized for specific tasks can be combined through a routing mechanism to address these challenges, creating a modular inference system. This paper introduces Expert Router, a scalable routing architecture that directs prompts to specialized expert models. We characterize multiple Expert Router configurations, including different LLama 3 models with quantized and non-quantized weights under up to 1,000 concurrent users. Our findings reveal that Expert Router introduces minimal latency overhead, with the configuration of expert models being a dominating factor in performance outcomes. High-parameter expert models deliver stable throughput and latency under moderate concurrency levels. In contrast, smaller expert models maintain competitive performance across a wider range of concurrent users compared to tensor-parallelized baseline models. This highlights the potential of Expert Router for efficient and scalable LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様なタスクの汎用性と有用性のために、科学的および工業的領域で広く採用されている。
それでも、これらのモデルを最適なスループットとレイテンシで大規模にデプロイし、提供することは大きな課題である。
特定のタスクに最適化された特殊なモデルは、これらの課題に対処するためのルーティングメカニズムを通じて組み合わせて、モジュラー推論システムを作成することができる。
本稿では,エキスパートモデルにプロンプトを指示するスケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
複数のExpert Router構成を特徴付けており、最大1000人の同時ユーザ以下で量子化および非量子化重みを持つLLama 3モデルを含む。
我々の研究結果によると、Expert Routerは最小の遅延オーバーヘッドを導入し、専門家モデルの設定がパフォーマンスの第一の要因であることがわかった。
高パラメータのエキスパートモデルは、適度な並行性レベルの下で安定したスループットとレイテンシを提供する。
対照的に、より小規模な専門家モデルはテンソル並列化ベースラインモデルと比較して、幅広い並行ユーザ間での競合性能を維持している。
これは、効率よくスケーラブルなLLMデプロイメントのためのExpert Routerの可能性を強調している。
関連論文リスト
- Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - WDMoE: Wireless Distributed Large Language Models with Mixture of Experts [65.57581050707738]
我々は,Mixture of Experts (MoE)に基づく無線分散大言語モデル(LLM)パラダイムを提案する。
我々は,基地局(BS)とモバイルデバイスにゲーティングネットワークと先行するニューラルネットワーク層を配置することにより,LLM内のMoE層を分解する。
我々は、モデルの性能とエンドツーエンドのレイテンシの両方を考慮して、専門家の選択ポリシーを設計する。
論文 参考訳(メタデータ) (2024-05-06T02:55:50Z) - Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB
networks [0.0]
統合アクセスとバックハウリング(IRL)は、将来の世代におけるより高いデータレートに対する前例のない要求を満たすための、実行可能なアプローチである。
本稿では,分数ノードに付随する巨大なアクション空間の問題を,Deep Q-Learning Networkを用いて処理する方法を示す。
論文 参考訳(メタデータ) (2023-08-31T21:30:25Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel [19.24542340170026]
PyTorch Fully Sharded Data Parallel (FSDP) を大規模モデルトレーニングのための業界グレードのソリューションとして紹介する。
FSDPはTFLOPSの観点で、ほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートする。
論文 参考訳(メタデータ) (2023-04-21T23:52:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - User Clustering for Rate Splitting using Machine Learning [37.734460275850076]
ニューラルネットワーク(NN)に基づくスケーラブルで軽量なクラスタリング機構を提案する。
精度と性能の指標は、NNがノイズチャネル応答に基づいてユーザを学習、クラスタ化できることを示している。
論文 参考訳(メタデータ) (2022-05-23T15:05:16Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - PinnerSage: Multi-Modal User Embedding Framework for Recommendations at
Pinterest [54.56236567783225]
PinnerSageはエンド・ツー・エンドのレコメンデーションシステムで、マルチモーダル・埋め込みを通じて各ユーザーを表現する。
オフラインおよびオンラインA/B実験を複数実施し,本手法が単一埋め込み法より有意に優れていることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:13:20Z) - Parallelizing Machine Learning as a Service for the End-User [14.389966909395058]
典型的なMLシステムパイプラインの並列化に活用できる分散アーキテクチャを提案する。
そこで本研究では,テキストマイニングサービスによるケーススタディを提案し,本手法を多くの類似アプリケーションに一般化する方法について論じる。
論文 参考訳(メタデータ) (2020-05-28T15:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。