論文の概要: Expert Router: Orchestrating Efficient Language Model Inference through Prompt Classification
- arxiv url: http://arxiv.org/abs/2404.15153v1
- Date: Mon, 22 Apr 2024 16:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:22:34.254776
- Title: Expert Router: Orchestrating Efficient Language Model Inference through Prompt Classification
- Title(参考訳): エキスパートルータ:プロンプト分類による効率的な言語モデル推論のオーケストレーション
- Authors: Josef Pichlmeier, Philipp Ross, Andre Luckow,
- Abstract要約: 大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。
本稿では,複数のエキスパートモデルを効率的に編成するシステムであるExpert Routerを紹介する。
Expert Routerは、入ってくるリクエストを分散する中央ルーティングゲートウェイを備えた並列推論システムである。
- 参考スコア(独自算出の注目度): 0.4726677580049183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have experienced widespread adoption across scientific and industrial domains due to their versatility and utility for diverse tasks. Nevertheless, deploying and serving these models at scale with optimal throughput and latency remains a significant challenge, primarily because of the high computational and memory demands associated with LLMs. To tackle this limitation, we introduce Expert Router, a system designed to orchestrate multiple expert models efficiently, thereby enhancing scalability. Expert Router is a parallel inference system with a central routing gateway that distributes incoming requests using a clustering method. This approach effectively partitions incoming requests among available LLMs, maximizing overall throughput. Our extensive evaluations encompassed up to 1,000 concurrent users, providing comprehensive insights into the system's behavior from user and infrastructure perspectives. The results demonstrate Expert Router's effectiveness in handling high-load scenarios and achieving higher throughput rates, particularly under many concurrent users.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様なタスクの汎用性と有用性のために、科学的および工業的領域で広く採用されている。
それでも、これらのモデルを最適なスループットとレイテンシで大規模にデプロイおよび提供することは、大きな課題である。
この制限に対処するため,複数のエキスパートモデルを効率的に編成するシステムであるExpert Routerを導入し,スケーラビリティを向上する。
Expert Routerは、集中ルーティングゲートウェイを備えた並列推論システムで、クラスタリングメソッドを使用して受信リクエストを分散する。
このアプローチは、受信リクエストを利用可能なLLM間で効果的に分割し、全体的なスループットを最大化する。
当社の広範な評価では,最大1,000人の同時ユーザを対象としており,ユーザとインフラストラクチャの観点からのシステムの挙動に関する包括的な洞察を提供しています。
その結果、高負荷シナリオの処理と高いスループット率、特に多くの同時使用者において、Expert Routerの有効性が示された。
関連論文リスト
- WDMoE: Wireless Distributed Large Language Models with Mixture of Experts [65.57581050707738]
我々は,Mixture of Experts (MoE)に基づく無線分散大言語モデル(LLM)パラダイムを提案する。
我々は,基地局(BS)とモバイルデバイスにゲーティングネットワークと先行するニューラルネットワーク層を配置することにより,LLM内のMoE層を分解する。
我々は、モデルの性能とエンドツーエンドのレイテンシの両方を考慮して、専門家の選択ポリシーを設計する。
論文 参考訳(メタデータ) (2024-05-06T02:55:50Z) - Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS) は、様々なアプリケーションで約束されている。
しかし彼らは、特に報酬関数の作成や、既存の大規模なデータセットの活用など、課題に悩まされている。
オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-26T12:08:58Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB
networks [0.0]
統合アクセスとバックハウリング(IRL)は、将来の世代におけるより高いデータレートに対する前例のない要求を満たすための、実行可能なアプローチである。
本稿では,分数ノードに付随する巨大なアクション空間の問題を,Deep Q-Learning Networkを用いて処理する方法を示す。
論文 参考訳(メタデータ) (2023-08-31T21:30:25Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel [19.24542340170026]
PyTorch Fully Sharded Data Parallel (FSDP) を大規模モデルトレーニングのための業界グレードのソリューションとして紹介する。
FSDPはTFLOPSの観点で、ほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートする。
論文 参考訳(メタデータ) (2023-04-21T23:52:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - User Clustering for Rate Splitting using Machine Learning [37.734460275850076]
ニューラルネットワーク(NN)に基づくスケーラブルで軽量なクラスタリング機構を提案する。
精度と性能の指標は、NNがノイズチャネル応答に基づいてユーザを学習、クラスタ化できることを示している。
論文 参考訳(メタデータ) (2022-05-23T15:05:16Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - PinnerSage: Multi-Modal User Embedding Framework for Recommendations at
Pinterest [54.56236567783225]
PinnerSageはエンド・ツー・エンドのレコメンデーションシステムで、マルチモーダル・埋め込みを通じて各ユーザーを表現する。
オフラインおよびオンラインA/B実験を複数実施し,本手法が単一埋め込み法より有意に優れていることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:13:20Z) - Parallelizing Machine Learning as a Service for the End-User [14.389966909395058]
典型的なMLシステムパイプラインの並列化に活用できる分散アーキテクチャを提案する。
そこで本研究では,テキストマイニングサービスによるケーススタディを提案し,本手法を多くの類似アプリケーションに一般化する方法について論じる。
論文 参考訳(メタデータ) (2020-05-28T15:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。