論文の概要: SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models
via Dynamic Expert Pruning and Swapping
- arxiv url: http://arxiv.org/abs/2308.15030v2
- Date: Thu, 28 Dec 2023 02:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:41:31.602436
- Title: SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models
via Dynamic Expert Pruning and Swapping
- Title(参考訳): SwapMoE: ダイナミックエキスパートプルーニングとスワッピングによる大規模なMoEモデルの効率的なメモリ制約実行
- Authors: Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Linghe Kong, Yunxin
Liu
- Abstract要約: スワップモーエ(SwapMoE)は、チューナブルメモリの予算を扱う、MoEベースで効率的な大規模モデルを実現するためのフレームワークである。
SwapMoEの主な考え方は、仮想エキスパートという、重要な専門家の小さな動的なセットを推論のメインメモリに留めることである。
その結果,様々なメモリ制約下でのSwapMoEの顕著な性能が示された。
- 参考スコア(独自算出の注目度): 23.60461848152645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts (MoE) is a popular technique to improve capacity of large
models with conditionally-activated parallel neural network modules (experts).
Due to its remarkable scaling performance with sparse computation, it is widely
used in modern Large Language Models (LLMs) and Large Vision Models (LVMs).
However, serving such large models on edge devices is challenging due to memory
constraints. Typical solutions like memory swapping or weight pruning may lead
to significantly higher latency or severe accuracy loss.
In this paper, we introduce SwapMoE, a framework for efficient continuous
MoE-based large models serving with tunable memory budgets. The main idea of
SwapMoE is to keep a small dynamic set of important experts, namely Virtual
Experts, in the main memory for inference, while seamlessly maintaining how the
Virtual Experts map to the actual experts. We use a profiling-guided planner to
allocate the resources for SwapMoE that can fully utilize the memory budgets
and bandwidth, and an importance-aware scheduler to efficiently identify,
update, and use the Virtual Experts for accurate inference.
To evaluate SwapMoE, we conduct experiments on multiple edge devices with
state-of-the-art MoE-based Large Language Models and Large Vision Models. The
results demonstrate remarkable performance of SwapMoE under various memory
constraints. Specifically, SwapMoE can enable running large MoE models under
tight memory budgets with similar latency to pruned compact models, while with
significantly higher accuracy.
- Abstract(参考訳): エキスパートの混合(MoE)は、条件付きアクティベートされた並列ニューラルネットワークモジュール(エキスパート)を備えた大規模モデルの容量を改善する一般的なテクニックである。
分散計算による驚くべきスケーリング性能のため、現代の大規模言語モデル(llms)や大規模ビジョンモデル(lvms)で広く使われている。
しかし、エッジデバイスにそのような大きなモデルを提供するのは、メモリ制約のため難しい。
メモリスワップや重み付けといった典型的なソリューションは、レイテンシーが著しく高くなり、精度が大幅に低下する可能性がある。
本稿では, チューナブルメモリの予算に対応する, 効率的な連続型MoEベース大規模モデルのフレームワークであるSwapMoEを紹介する。
SwapMoEの主な考え方は、仮想専門家の小さなダイナミックなセット、すなわち仮想専門家を推論のメインメモリに置き、仮想専門家が実際の専門家にどのようにマップするかをシームレスに維持することだ。
我々は,メモリ予算と帯域幅を十分に活用可能なswapmoeのリソースを割り当てるプロファイリングガイドプランナーと,仮想専門家を効率的に識別し,更新し,正確な推論に利用する重要認識スケジューラを用いた。
SwapMoEを評価するために、我々は最先端のMoEベースのLarge Language ModelsとLarge Vision Modelsを用いて複数のエッジデバイス上で実験を行う。
その結果,様々なメモリ制約下でのSwapMoEの性能が顕著であった。
特にSwapMoEは、プルーニングされたコンパクトモデルと同じようなレイテンシで、メモリ予算の厳しい状態で大きなMoEモデルを実行できるが、精度はかなり高い。
関連論文リスト
- MEMORYLLM: Towards Self-Updatable Large Language Models [52.99595594628542]
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証された長期情報保持能力を示す。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Memory Augmented Language Models through Mixture of Word Experts [5.0215187938544315]
学習能力とFLOPをMixture-of-Experts(MoE)スタイルのモデルで積極的に分離し、知識豊富な語彙ベースのルーティング機能とエキスパートを目指しています。
我々は、様々なNLPタスクにおいて、同様のFLOP数を持つモデルのT5ファミリよりも、MoWEの方がはるかに優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2023-11-15T18:19:56Z) - SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models [20.836988355711995]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
大規模なMoEモデルに適した効率的な推論手法であるSiDAを導入する。
論文 参考訳(メタデータ) (2023-10-29T01:08:55Z) - Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit
Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。
MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。
低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文 参考訳(メタデータ) (2023-10-03T20:11:23Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable
Mixture-of-Expert Inference [24.371074891864936]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。