論文の概要: MoE-Infinity: Offloading-Efficient MoE Model Serving
- arxiv url: http://arxiv.org/abs/2401.14361v2
- Date: Thu, 1 Aug 2024 13:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 14:34:15.634540
- Title: MoE-Infinity: Offloading-Efficient MoE Model Serving
- Title(参考訳): MoE-Infinity:Offloading-Efficient MoE Model Serving
- Authors: Leyang Xue, Yao Fu, Zhan Lu, Luo Mai, Mahesh Marina,
- Abstract要約: MoE-Infinity(モエ・インフィニティ)は、Sparse Mixed-of-Experts(MoE)モデルのためのオフロード効率の高いサービスシステムである。
オフロードを最適化するために、MoE-Infinityはエキスパートアクティベーションのための新しい要求レベルのトレースを実現する。
MoE-Infinityはより優れたレイテンシ性能を示し、様々なMoEモデルを提供する際に2-20倍の改善を提供する。
- 参考スコア(独自算出の注目度): 15.826989637041907
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents MoE-Infinity, an offloading-efficient serving system for sparse mixture-of-experts (MoE) models. To optimize offloading, MoE-Infinity achieves novel request-level tracing for expert activation, capturing MoE's sparse execution patterns such as selective activation, group activation, and skewed reuse. Leveraging the request-level trace, MoE-Infinity performs effective expert prefetching and expert caching, achieving high efficiency in transferring model parameters from host memory to GPU memory. Experimental results demonstrate that MoE-Infinity achieves low latency comparable to expensive full-GPU deployments, which require up to 4X more GPU resources than MoE-Infinity. Compared to offloading-supporting LLM serving systems such as DeepSpeed-Inference, Llama.cpp, Mixtral Offloading, and BrainStorm, MoE-Infinity exhibits superior latency performance, providing 2-20X improvements when serving various MoE models for a large collection of LLM tasks. MoE-Infinity's source code is publicly available a https://github.com/TorchMoE/MoE-Infinity
- Abstract(参考訳): 本稿では,Sparse Mixed-of-Experts(MoE)モデルのためのオフロード効率の高いサービスシステムであるMoE-Infinityを提案する。
オフロードを最適化するために、MoE-Infinityはエキスパートアクティベーションのための新しい要求レベルのトレースを実現し、選択的アクティベーション、グループアクティベーション、スキュードリユースといったMoEのスパース実行パターンをキャプチャする。
要求レベルのトレースを活用することで、MoE-Infinityは、効率的なエキスパートプリフェッチとエキスパートキャッシングを実行し、ホストメモリからGPUメモリへのモデルパラメータの転送において高い効率を達成する。
実験結果によると、MoE-Infinityは、MoE-Infinityよりも最大4倍のGPUリソースを必要とする高価なフルGPUデプロイメントに匹敵する低レイテンシを実現する。
DeepSpeed-Inference、Llama.cpp、Mixtral Offloading、BrainStormのようなオフロード対応のLLMサービスシステムと比較すると、MoE-Infinityはより優れたレイテンシ性能を示し、多数のLLMタスクに対して様々なMoEモデルを提供する際に2-20倍の改善を提供する。
MoE-Infinityのソースコードはhttps://github.com/TorchMoE/MoE-Infinityで公開されている。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - ProMoE: Fast MoE-based LLM Serving using Proactive Caching [2.041412657843408]
Mixture-of-Experts (MoE)モデルは、計算中にモデルのパラメータのサブセットだけを活性化することでこの問題を軽減する。
本稿では,中間モデルを用いた新しいプロアクティブキャッシングシステムProMoEを提案する。
評価の結果,ProMoEはプリフィルおよびデコード段階で平均2.13倍,2.84倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-10-29T15:31:27Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks [58.075367597860044]
MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。
我々は,MoEモデルに高密度チェックポイントを微調整する有効な方法であるMoE Jetpackを紹介する。
本実験は,MoE Jetpackが収束速度と精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T10:05:42Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - SiDA-MoE: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models [20.16600129902895]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
我々は、大規模なMoEモデルに適した効率的な推論手法であるSiDA-MoEを紹介する。
論文 参考訳(メタデータ) (2023-10-29T01:08:55Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。