論文の概要: Serving MoE Models on Resource-constrained Edge Devices via Dynamic
Expert Swapping
- arxiv url: http://arxiv.org/abs/2308.15030v1
- Date: Tue, 29 Aug 2023 05:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:38:38.643864
- Title: Serving MoE Models on Resource-constrained Edge Devices via Dynamic
Expert Swapping
- Title(参考訳): 動的エキスパートスワッピングによる資源制約エッジデバイス上でのMoEモデルの実現
- Authors: Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Linghe Kong, Yunxin
Liu
- Abstract要約: 資源制約計算のための推論フレームワークPC-MoEを紹介する。
我々はPC-MoEがメモリ使用率とレイテンシを42.34%と18.63%削減できることを示した。
- 参考スコア(独自算出の注目度): 23.60461848152645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts (MoE) is a popular technique in deep learning that
improves model capacity with conditionally-activated parallel neural network
modules (experts). However, serving MoE models in resource-constrained
latency-critical edge scenarios is challenging due to the significantly
increased model size and complexity. In this paper, we first analyze the
behavior pattern of MoE models in continuous inference scenarios, which leads
to three key observations about the expert activations, including temporal
locality, exchangeability, and skippable computation. Based on these
observations, we introduce PC-MoE, an inference framework for
resource-constrained continuous MoE model serving. The core of PC-MoE is a new
data structure, Parameter Committee, that intelligently maintains a subset of
important experts in use to reduce resource consumption. The optimal
configuration of Parameter Committee is found offline by a profiling-guided
committee planner, and expert swapping and request handling at runtime are
managed by an adaptive committee scheduler. To evaluate the effectiveness of
PC-MoE, we conduct experiments using state-of-the-art MoE models on common
computer vision and natural language processing tasks. The results demonstrate
optimal trade-offs between resource consumption and model accuracy achieved by
PC-MoE. For instance, on object detection tasks with the Swin-MoE model, our
approach can reduce memory usage and latency by 42.34% and 18.63% with only
0.10% accuracy degradation.
- Abstract(参考訳): エキスパートの混合(mixed of experts, moe)は、条件付きアクティベートされた並列ニューラルネットワークモジュール(experts)によってモデル能力を向上させるディープラーニングの一般的なテクニックである。
しかし、リソース制約のあるレイテンシクリティカルエッジシナリオでMoEモデルを提供するのは、モデルのサイズと複雑さが大幅に増加するため、難しい。
本稿では,moeモデルの振る舞いパターンを連続的な推論シナリオで解析することで,時間的局所性,交換性,スキップ可能な計算など,専門家のアクティベーションに関する3つの重要な観察結果を得る。
そこで本研究では,リソース制約付き連続moeモデルの推論フレームワークpc-moeを提案する。
PC-MoEの中核は、リソース消費を減らすために使われる重要な専門家のサブセットをインテリジェントに維持する新しいデータ構造であるパラメータ委員会である。
パラメーター委員会の最適設定はプロファイリング誘導委員会プランナーによってオフラインで行われ、実行時に専門家のスワップとリクエストハンドリングは適応委員会スケジューラによって管理される。
pc-moeの有効性を評価するために,共通コンピュータビジョンと自然言語処理タスクにおける最先端moeモデルを用いた実験を行った。
その結果,PC-MoEによる資源消費とモデル精度の最適トレードオフが示された。
例えば、Swin-MoEモデルによるオブジェクト検出タスクでは、我々のアプローチは、0.10%の精度でメモリ使用量とレイテンシを42.34%と18.63%削減できる。
関連論文リスト
- Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - MEMORYLLM: Towards Self-Updatable Large Language Models [52.99595594628542]
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証された長期情報保持能力を示す。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Memory Augmented Language Models through Mixture of Word Experts [5.0215187938544315]
学習能力とFLOPをMixture-of-Experts(MoE)スタイルのモデルで積極的に分離し、知識豊富な語彙ベースのルーティング機能とエキスパートを目指しています。
我々は、様々なNLPタスクにおいて、同様のFLOP数を持つモデルのT5ファミリよりも、MoWEの方がはるかに優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2023-11-15T18:19:56Z) - SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models [20.836988355711995]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
大規模なMoEモデルに適した効率的な推論手法であるSiDAを導入する。
論文 参考訳(メタデータ) (2023-10-29T01:08:55Z) - Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit
Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。
MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。
低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文 参考訳(メタデータ) (2023-10-03T20:11:23Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。