論文の概要: Serving MoE Models on Resource-constrained Edge Devices via Dynamic
Expert Swapping
- arxiv url: http://arxiv.org/abs/2308.15030v1
- Date: Tue, 29 Aug 2023 05:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:38:38.643864
- Title: Serving MoE Models on Resource-constrained Edge Devices via Dynamic
Expert Swapping
- Title(参考訳): 動的エキスパートスワッピングによる資源制約エッジデバイス上でのMoEモデルの実現
- Authors: Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Linghe Kong, Yunxin
Liu
- Abstract要約: 資源制約計算のための推論フレームワークPC-MoEを紹介する。
我々はPC-MoEがメモリ使用率とレイテンシを42.34%と18.63%削減できることを示した。
- 参考スコア(独自算出の注目度): 23.60461848152645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts (MoE) is a popular technique in deep learning that
improves model capacity with conditionally-activated parallel neural network
modules (experts). However, serving MoE models in resource-constrained
latency-critical edge scenarios is challenging due to the significantly
increased model size and complexity. In this paper, we first analyze the
behavior pattern of MoE models in continuous inference scenarios, which leads
to three key observations about the expert activations, including temporal
locality, exchangeability, and skippable computation. Based on these
observations, we introduce PC-MoE, an inference framework for
resource-constrained continuous MoE model serving. The core of PC-MoE is a new
data structure, Parameter Committee, that intelligently maintains a subset of
important experts in use to reduce resource consumption. The optimal
configuration of Parameter Committee is found offline by a profiling-guided
committee planner, and expert swapping and request handling at runtime are
managed by an adaptive committee scheduler. To evaluate the effectiveness of
PC-MoE, we conduct experiments using state-of-the-art MoE models on common
computer vision and natural language processing tasks. The results demonstrate
optimal trade-offs between resource consumption and model accuracy achieved by
PC-MoE. For instance, on object detection tasks with the Swin-MoE model, our
approach can reduce memory usage and latency by 42.34% and 18.63% with only
0.10% accuracy degradation.
- Abstract(参考訳): エキスパートの混合(mixed of experts, moe)は、条件付きアクティベートされた並列ニューラルネットワークモジュール(experts)によってモデル能力を向上させるディープラーニングの一般的なテクニックである。
しかし、リソース制約のあるレイテンシクリティカルエッジシナリオでMoEモデルを提供するのは、モデルのサイズと複雑さが大幅に増加するため、難しい。
本稿では,moeモデルの振る舞いパターンを連続的な推論シナリオで解析することで,時間的局所性,交換性,スキップ可能な計算など,専門家のアクティベーションに関する3つの重要な観察結果を得る。
そこで本研究では,リソース制約付き連続moeモデルの推論フレームワークpc-moeを提案する。
PC-MoEの中核は、リソース消費を減らすために使われる重要な専門家のサブセットをインテリジェントに維持する新しいデータ構造であるパラメータ委員会である。
パラメーター委員会の最適設定はプロファイリング誘導委員会プランナーによってオフラインで行われ、実行時に専門家のスワップとリクエストハンドリングは適応委員会スケジューラによって管理される。
pc-moeの有効性を評価するために,共通コンピュータビジョンと自然言語処理タスクにおける最先端moeモデルを用いた実験を行った。
その結果,PC-MoEによる資源消費とモデル精度の最適トレードオフが示された。
例えば、Swin-MoEモデルによるオブジェクト検出タスクでは、我々のアプローチは、0.10%の精度でメモリ使用量とレイテンシを42.34%と18.63%削減できる。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices [19.96064012736243]
本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。
動的メモリ管理を取り入れることでメモリ使用量を削減し、推論遅延を最小限にする。
本稿では,エッジデバイス上での大規模モデル推論に最適化されたフレームワークであるHermesを紹介する。
論文 参考訳(メタデータ) (2024-09-06T12:55:49Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - MoNDE: Mixture of Near-Data Experts for Large-Scale Sparse Models [15.346491299728463]
MoNDEは、$textithot$のエキスパートだけをGPUに転送することで、MoEパラメータの運動量を削減する。
MoNDEは通信効率のよいMoE推論を可能にし、結果としてかなりのスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-05-29T07:23:29Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit
Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。
MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。
低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文 参考訳(メタデータ) (2023-10-03T20:11:23Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。