論文の概要: QoS-Efficient Serving of Multiple Mixture-of-Expert LLMs Using Partial Runtime Reconfiguration
- arxiv url: http://arxiv.org/abs/2505.06481v1
- Date: Sat, 10 May 2025 00:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.860785
- Title: QoS-Efficient Serving of Multiple Mixture-of-Expert LLMs Using Partial Runtime Reconfiguration
- Title(参考訳): 部分的実行時再構成を用いた複数混合型LLMのQoS効率向上
- Authors: HamidReza Imani, Jiaxin Peng, Peiman Mohseni, Abdolah Amirany, Tarek El-Ghazawi,
- Abstract要約: Mixtral-8x7Bモデルを使用した1台のNVIDIA A100 GPU(80GB)を持つサーバは、NVIDIAのマルチインスタンスGPU(MIG)と比較して、ターンアラウンド時間を平均85%削減している。
最大4つのバリエーションを備えたGoogleのSwitch Transformer Base-8モデルに関する実験では、他のモデルのマージベースラインと比較して、アウトプット品質の維持における我々のアプローチのスケーラビリティとレジリエンスが示され、その効果が強調されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The deployment of mixture-of-experts (MoE) large language models (LLMs) presents significant challenges due to their high memory demands. These challenges become even more pronounced in multi-tenant environments, where shared resources must accommodate multiple models, limiting the effectiveness of conventional virtualization techniques. This paper addresses the problem of efficiently serving multiple fine-tuned MoE-LLMs on a single-GPU. We propose a serving system that employs \textit{similarity-based expert consolidation} to reduce the overall memory footprint by sharing similar experts across models. To ensure output quality, we introduce \textit{runtime partial reconfiguration}, dynamically replacing non-expert layers when processing requests from different models. As a result, our approach achieves a competitive output quality while maintaining throughput comparable to serving a single model while incurring a negligible increase in time-to-first-token (TTFT). Experiments on a server with a single NVIDIA A100 GPU (80GB) using Mixtral-8x7B models demonstrate an 85\% average reduction in turnaround time compared to NVIDIA's multi-instance GPU (MIG). Furthermore, experiments on Google's Switch Transformer Base-8 model with up to four variants demonstrate the scalability and resilience of our approach in maintaining output quality compared to other model merging baselines, highlighting its effectiveness.
- Abstract(参考訳): LLM(Mix-of-Experts)の大規模言語モデル(LLM)のデプロイは、高いメモリ要求のために大きな課題を呈している。
これらの課題は、共有リソースが複数のモデルに対応しなくてはならないマルチテナント環境においてさらに顕著になり、従来の仮想化技術の有効性が制限される。
本稿では,シングルGPU上で複数の微調整MOE-LLMを効率よく提供する問題に対処する。
モデル間で類似した専門家を共有することで、メモリフットプリント全体の削減を図るために、textit{similarity-based expert consolidation} を用いたサービスシステムを提案する。
出力品質を確保するため,異なるモデルからの要求を処理する際に,非専門家層を動的に置き換える「textit{runtime partial reconfiguration」を導入する。
その結果,TTFT (Time-to-first-token) の非無視的な増加を招きながら,単一モデルに匹敵するスループットを維持しながら,競争力のある出力品質を実現することができた。
Mixtral-8x7Bモデルを使用した単一のNVIDIA A100 GPU (80GB) を持つサーバ上での実験では、NVIDIAのマルチインスタンスGPU(MIG)と比較して、ターンアラウンド時間の平均85%削減が示されている。
さらに、最大4つのバリエーションを持つGoogleのSwitch Transformer Base-8モデルの実験では、他のモデルのマージベースラインと比較して、出力品質の維持における我々のアプローチのスケーラビリティとレジリエンスが示され、その効果が強調されている。
関連論文リスト
- Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Mixture of Experts with Mixture of Precisions for Tuning Quality of Service [0.0]
本稿では,MoEモデルの効率的なデプロイのための適応型サービス方式を提案する。
量子化の専門家の数を動的に決定することにより、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。
その結果、動的かつ精度の高いアプリケーションにおける我々のアプローチの実用性を強調した。
論文 参考訳(メタデータ) (2024-07-19T15:42:49Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。