論文の概要: MoE-Infinity: Efficient MoE Inference on Personal Machines with Sparsity-Aware Expert Cache
- arxiv url: http://arxiv.org/abs/2401.14361v3
- Date: Wed, 12 Mar 2025 18:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:08.507915
- Title: MoE-Infinity: Efficient MoE Inference on Personal Machines with Sparsity-Aware Expert Cache
- Title(参考訳): MoE-Infinity: スパシティ対応エキスパートキャッシュを持つパーソナルマシン上での効率的なMoE推論
- Authors: Leyang Xue, Yao Fu, Zhan Lu, Luo Mai, Mahesh Marina,
- Abstract要約: MoE-Infinityは、GPUメモリ容量に制限のあるパーソナルマシン向けに設計された効率的なMoE推論システムである。
選択されたトレースを分析することで、MoE-Infinityはエキスパートキャッシュの置換とプリフェッチをガイドし、トークン毎の3.1-16.7倍のレイテンシ改善を提供する。
- 参考スコア(独自算出の注目度): 15.826989637041907
- License:
- Abstract: This paper presents MoE-Infinity, an efficient MoE inference system designed for personal machines with limited GPU memory capacity. The key idea for MoE-Infinity is that on personal machines, which are often single-user environments, MoE-based LLMs typically operate with a batch size of one. In this setting, MoE models exhibit a high degree of activation sparsity, meaning a small number of experts are frequently reused in generating tokens during the decode phase. Leveraging this idea, we design a sparsity-aware expert cache, which can trace the sparse activation of experts during inference and carefully select the trace that represents the sparsity pattern. By analyzing these selected traces, MoE-Infinity guides the replacement and prefetching of the expert cache, providing 3.1-16.7x per-token latency improvements over numerous state-of-the-art systems, including vLLM, Ollama, DeepSpeed and BrainStorm across various MoE models (DeepSeek and Mixtral) when handling different LLM tasks. MoE-Infinity's source code is publicly available at https://github.com/EfficientMoE/MoE-Infinity
- Abstract(参考訳): 本稿では、GPUメモリ容量に制限のあるパーソナルマシン向けに設計された効率的なMoE推論システムであるMoE-Infinityを提案する。
MoE-Infinityの鍵となる考え方は、シングルユーザー環境のパーソナルマシンでは、通常、MoEベースのLLMはバッチサイズが1である。
この設定では、MoEモデルは高いアクティベーション間隔を示すため、少数の専門家がデコードフェーズ中にトークンを生成するために頻繁に再利用される。
このアイデアを活用して、スペシャリティを意識したエキスパートキャッシュを設計し、推論中に専門家のスパースアクティベーションをトレースし、スパーシティパターンを表すトレースを慎重に選択する。
これらの選択されたトレースを分析して、MoE-Infinityはエキスパートキャッシュの置換とプリフェッチをガイドし、異なるLLMタスクを処理する際の様々なMoEモデル(DeepSeekとMixtral)にわたるvLLM、Ollama、DeepSpeed、BrainStormを含む多くの最先端システムの3.1-16.7倍のレイテンシ改善を提供する。
MoE-Infinityのソースコードはhttps://github.com/EfficientMoE/MoE-Infinityで公開されている。
関連論文リスト
- fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。
我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。
CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks [58.075367597860044]
MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。
我々は,MoEモデルに高密度チェックポイントを微調整する有効な方法であるMoE Jetpackを紹介する。
本実験は,MoE Jetpackが収束速度と精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T10:05:42Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。