論文の概要: SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2310.18859v1
- Date: Sun, 29 Oct 2023 01:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:07:42.695757
- Title: SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models
- Title(参考訳): SiDA: スペシャリティにインスパイアされたデータ・アウェア・サービング
- Authors: Zhixu Du, Shiyu Li, Yuhao Wu, Xiangyu Jiang, Jingwei Sun, Qilin Zheng,
Yongkai Wu, Ang Li, Hai "Helen" Li, Yiran Chen
- Abstract要約: Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
大規模なMoEモデルに適した効率的な推論手法であるSiDAを導入する。
- 参考スコア(独自算出の注目度): 20.836988355711995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has emerged as a favorable architecture in the era
of large models due to its inherent advantage, i.e., enlarging model capacity
without incurring notable computational overhead. Yet, the realization of such
benefits often results in ineffective GPU memory utilization, as large portions
of the model parameters remain dormant during inference. Moreover, the memory
demands of large models consistently outpace the memory capacity of
contemporary GPUs. Addressing this, we introduce SiDA (Sparsity-inspired
Data-Aware), an efficient inference approach tailored for large MoE models.
SiDA judiciously exploits both the system's main memory, which is now abundant
and readily scalable, and GPU memory by capitalizing on the inherent sparsity
on expert activation in MoE models. By adopting a data-aware perspective, SiDA
achieves enhanced model efficiency with a neglectable performance drop.
Specifically, SiDA attains a remarkable speedup in MoE inference with up to
3.93X throughput increasing, up to 75% latency reduction, and up to 80% GPU
memory saving with down to 1% performance drop. This work paves the way for
scalable and efficient deployment of large MoE models, even in
memory-constrained systems.
- Abstract(参考訳): Mixture-of-Experts (MoE) は、その固有の利点、すなわち、顕著な計算オーバーヘッドを伴わずにモデル容量を増大させることにより、大規模モデルの時代に好まれるアーキテクチャとして登場した。
しかし、そのような利点の実現は、推論中にモデルパラメータの大部分が休眠状態のままであるため、GPUメモリの非効率利用につながることが多い。
さらに、大きなモデルのメモリ要求は、現代のGPUのメモリ能力より一貫して優れている。
そこで我々は,大規模なMoEモデルに適した効率的な推論手法であるSiDA(Sparsity-inspired Data-Aware)を導入する。
SiDAは、MoEモデルのエキスパートアクティベーションに固有の間隔を生かして、現在豊富でスケーラブルなシステムのメインメモリとGPUメモリの両方を巧みに利用している。
データ認識の観点を採用することで、SiDAは、無視可能なパフォーマンス低下を伴うモデル効率の向上を達成する。
特にsidaは、最大3.93倍のスループット向上、75%のレイテンシ削減、最大80%のgpuメモリ節約、最大1%のパフォーマンス低下という、moe推論の驚くべきスピードアップを達成している。
この作業は、メモリ制約のあるシステムでも、大規模moeモデルのスケーラブルで効率的なデプロイメントへの道を開きます。
関連論文リスト
- MEMORYLLM: Towards Self-Updatable Large Language Models [52.99595594628542]
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証された長期情報保持能力を示す。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - The Case for Co-Designing Model Architectures with Hardware [13.022505733049597]
ユーザがトランスモデルのランタイムパフォーマンスを最大化するためのガイドラインのセットを提供する。
効率的なモデル形状を持つモデルのスループットは、最大で39%高くなっています。
論文 参考訳(メタデータ) (2024-01-25T19:50:31Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - KOALA: Self-Attention Matters in Knowledge Distillation of Latent
Diffusion Models for Memory-Efficient and Fast Image Synthesis [56.242024398553355]
SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。
KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し、SDXLモデルの54%と69%のモデルサイズを削減した。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models
via Dynamic Expert Pruning and Swapping [23.60461848152645]
スワップモーエ(SwapMoE)は、チューナブルメモリの予算を扱う、MoEベースで効率的な大規模モデルを実現するためのフレームワークである。
SwapMoEの主な考え方は、仮想エキスパートという、重要な専門家の小さな動的なセットを推論のメインメモリに留めることである。
その結果,様々なメモリ制約下でのSwapMoEの顕著な性能が示された。
論文 参考訳(メタデータ) (2023-08-29T05:25:21Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable
Mixture-of-Expert Inference [24.371074891864936]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System [24.335267149209848]
Mixture-of-Experts (MoE)モデルは、モデル/データ全体のサイズに応じてトレーニングコストを下げるために提案されている。
階層ストレージ上での2次元プリフェッチとフュージョン通信による弾性MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、SE-MoEはCPU-GPUメモリを1つのセクションのリングに結合してモデルを読み込む。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。