論文の概要: MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services
- arxiv url: http://arxiv.org/abs/2205.10034v3
- Date: Mon, 12 Aug 2024 09:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:37:20.442711
- Title: MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services
- Title(参考訳): MoESys:インターネットサービスのための分散的で効率的な訓練と推論システム
- Authors: Dianhai Yu, Liang Shen, Hongxiang Hao, Weibao Gong, Huachao Wu, Jiang Bian, Lirong Dai, Haoyi Xiong,
- Abstract要約: 大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
- 参考スコア(独自算出の注目度): 32.278096820269816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern internet services, such as chatbots, search engines, and online advertising, demand the use of large-scale deep neural networks (DNNs), distributed training and inference over heterogeneous computing systems are desired to facilitate these DNN models. Mixture-of-Experts (MoE) is one the most common strategies to lower the cost of training subject to the overall size of models/data through gating and parallelism in a divide-and-conquer fashion. While DeepSpeed has made efforts in carrying out large-scale MoE training over heterogeneous infrastructures, the efficiency of training and inference could be further improved from several system aspects, including load balancing, communication/computation efficiency, and memory footprint limits. In this work, we present a novel MoESys that boosts efficiency in both large-scale training and inference. Specifically, in the training procedure, the proposed MoESys adopts an Elastic MoE training strategy with 2D prefetch and Fusion communication over Hierarchical storage, so as to enjoy efficient parallelisms. For scalable inference in a single node, especially when the model size is larger than GPU memory, MoESys builds the CPU-GPU memory jointly into a ring of sections to load the model, and executes the computation tasks across the memory sections in a round-robin manner for efficient inference. We carried out extensive experiments to evaluate MoESys, where MoESys successfully trains a Unified Feature Optimization (UFO) model with a Sparsely-Gated Mixture-of-Experts model of 12B parameters in 8 days on 48 A100 GPU cards. The comparison against the state-of-the-art shows that MoESys outperformed DeepSpeed with 33% higher throughput (tokens per second) in training and 13% higher throughput in inference in general. Particularly, under unbalanced MoE Tasks, e.g., UFO, MoESys achieved 64% higher throughput with 18% lower memory footprints.
- Abstract(参考訳): チャットボット、検索エンジン、オンライン広告などの現代のインターネットサービスは、大規模なディープニューラルネットワーク(DNN)の使用を要求する一方で、異種コンピューティングシステムに対する分散トレーニングと推論は、これらのDNNモデルを促進するために望まれる。
Mixture-of-Experts (MoE) は、モデルやデータの全体サイズに応じたトレーニングコストを、分割/分散方式でゲーティングと並列化によって削減する最も一般的な戦略の1つである。
DeepSpeedは、異種インフラストラクチャ上で大規模なMoEトレーニングを実施するために努力してきたが、トレーニングと推論の効率は、ロードバランシング、通信/計算効率、メモリフットプリント制限など、いくつかのシステム側面からさらに改善される可能性がある。
本研究では,大規模学習と推論の両面で効率を高める新しいMoESyを提案する。
具体的には、トレーニング手順において、提案したMoESysは、2Dプリフェッチと階層ストレージ上のフュージョン通信を備えたElastic MoEトレーニング戦略を採用し、効率的な並列性を享受する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに結合して構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
我々はMoESysの評価実験を行い、48 A100 GPUカード上で8日間に12BパラメータのSparsely-Gated Mixture-of-Expertsモデルを用いて統一特徴最適化(UFO)モデルをトレーニングした。
最先端と比較すると、MoESysはDeepSpeedを33%、トレーニングでは33%、推論では13%、パフォーマンスは13%向上した。
特に、バランスの取れないMoEタスク、例えばUFOでは、MoESysは64%高いスループットを実現し、18%低いメモリフットプリントを実現した。
関連論文リスト
- Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - FastMoE: A Fast Mixture-of-Expert Training System [20.74001755688784]
Mixture-of-Expert (MoE) は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
FastMoEはPyTorchをベースとした分散MoEトレーニングシステムである。
論文 参考訳(メタデータ) (2021-03-24T15:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。