論文の概要: MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints
- arxiv url: http://arxiv.org/abs/2504.09345v1
- Date: Sat, 12 Apr 2025 21:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:12.569456
- Title: MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints
- Title(参考訳): MoE-Lens:資源制約下での高出力MoE LLMのハードウェア限界に向けて
- Authors: Yichao Yuan, Lin Ma, Nishil Talati,
- Abstract要約: MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
- 参考スコア(独自算出の注目度): 7.287566040274871
- License:
- Abstract: Mixture of Experts (MoE) LLMs, characterized by their sparse activation patterns, offer a promising approach to scaling language models while avoiding proportionally increasing the inference cost. However, their large parameter sizes present deployment challenges in resource-constrained environments with limited GPU memory capacity, as GPU memory is often insufficient to accommodate the full set of model weights. Consequently, typical deployments rely on CPU-GPU hybrid execution: the GPU handles compute-intensive GEMM operations, while the CPU processes the relatively lightweight attention mechanism. This setup introduces a key challenge: how to effectively optimize resource utilization across CPU and GPU? Prior work has designed system optimizations based on performance models with limited scope. Specifically, such models do not capture the complex interactions between hardware properties and system execution mechanisms. Therefore, previous approaches neither identify nor achieve the hardware limit. This paper presents MoE-Lens, a high-throughput MoE LLM inference system designed through holistic performance modeling for resource-constrained environments. Our performance model thoroughly analyzes various fundamental system components, including CPU memory capacity, GPU compute power, and workload characteristics, to understand the theoretical performance upper bound of MoE inference. Furthermore, it captures the system execution mechanisms to identify the key hardware bottlenecks and accurately predict the achievable throughput. Informed by our performance model, MoE-Lens introduces an inference system approaching hardware limits. Evaluated on diverse MoE models and datasets, MoE-Lens outperforms the state-of-the-art solution by 4.6x on average (up to 25.5x), with our theoretical model predicting performance with an average 94% accuracy.
- Abstract(参考訳): あいまいなアクティベーションパターンを特徴とするMixture of Experts (MoE) LLMは、推論コストの比例的増加を回避しつつ、言語モデルをスケールする上で有望なアプローチを提供する。
しかし、その大きなパラメータサイズは、GPUメモリ容量が限られているリソース制約のある環境でのデプロイメント上の課題を示し、GPUメモリはモデル重みの完全なセットを満たすには不十分であることが多い。
GPUは計算集約的なGEMM操作を処理し、CPUは比較的軽量なアテンションメカニズムを処理する。
このセットアップでは、CPUとGPU間のリソース利用を効果的に最適化する方法という、重要な課題が紹介されている。
これまでの作業では,スコープが限定されたパフォーマンスモデルに基づいて,システム最適化を設計していた。
特に、そのようなモデルはハードウェア特性とシステム実行機構の間の複雑な相互作用を捉えない。
したがって、以前のアプローチではハードウェアの限界を識別も達成もできなかった。
本稿では,資源制約環境に対する総合的性能モデリングにより設計した高スループットMOE LLM推論システムであるMoE-Lensについて述べる。
性能モデルでは,CPUメモリ容量,GPU計算能力,ワークロード特性などの基本的なシステムコンポーネントを網羅的に解析し,MoE推論の理論的性能上限を理解する。
さらに、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測するために、システム実行メカニズムをキャプチャする。
性能モデルにインフォームされたMoE-Lensは,ハードウェア限界に近づいた推論システムを導入する。
様々なMoEモデルとデータセットに基づいて評価し、MoE-Lensは平均で4.6倍(最大25.5倍)、平均94%の精度でパフォーマンスを予測する。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Inference Performance Optimization for Large Language Models on CPUs [4.7230692120532485]
大規模言語モデル(LLM)は、様々なタスクにまたがる優れたパフォーマンスと大きな潜在能力を示している。
GPUハードウェアリソースが限られている場合、CPU上の代替オプションを検討することができます。
本稿では,CPU上でのLCMの高速化を目的とした,容易にデプロイ可能な推論性能最適化ソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-10T01:53:49Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - QIGen: Generating Efficient Kernels for Quantized Inference on Large
Language Models [22.055655390093722]
本稿では,LLaMA や OPT などの LLM 上の量子化生成推論をオフザシェルフ CPU 上で支援するための自動コード生成手法を提案する。
LLaMA モデルに対する CPU ベースの推論の結果から,我々のアプローチは,優れたオープンソースソリューションと比較して,高い性能と高い精度をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-07T17:46:08Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。