論文の概要: SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System
- arxiv url: http://arxiv.org/abs/2205.10034v1
- Date: Fri, 20 May 2022 09:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:03:40.105541
- Title: SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System
- Title(参考訳): se-moe - スケーラブルで効率的な分散トレーニングと推論システム
- Authors: Liang Shen, Zhihua Wu, WeiBao Gong, Hongxiang Hao, Yangfan Bai,
HuaChao Wu, Xinxuan Wu, Haoyi Xiong, Dianhai Yu, Yanjun Ma
- Abstract要約: Mixture-of-Experts (MoE)モデルは、モデル/データ全体のサイズに応じてトレーニングコストを下げるために提案されている。
階層ストレージ上での2次元プリフェッチとフュージョン通信による弾性MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、SE-MoEはCPU-GPUメモリを1つのセクションのリングに結合してモデルを読み込む。
- 参考スコア(独自算出の注目度): 20.485550395116366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing diversity of ML infrastructures nowadays, distributed
training over heterogeneous computing systems is desired to facilitate the
production of big models. Mixture-of-Experts (MoE) models have been proposed to
lower the cost of training subject to the overall size of models/data through
gating and parallelism in a divide-and-conquer fashion. While DeepSpeed has
made efforts in carrying out large-scale MoE training over heterogeneous
infrastructures, the efficiency of training and inference could be further
improved from several system aspects, including load balancing,
communication/computation efficiency, and memory footprint limits. In this
work, we present SE-MoE that proposes Elastic MoE training with 2D prefetch and
Fusion communication over Hierarchical storage, so as to enjoy efficient
parallelisms in various types. For scalable inference in a single node,
especially when the model size is larger than GPU memory, SE-MoE forms the
CPU-GPU memory jointly into a ring of sections to load the model, and executes
the computation tasks across the memory sections in a round-robin manner for
efficient inference. We carried out extensive experiments to evaluate SE-MoE,
where SE-MoE successfully trains a Unified Feature Optimization (UFO) model
with a Sparsely-Gated Mixture-of-Experts model of 12B parameters in 8 days on
48 A100 GPU cards. The comparison against the state-of-the-art shows that
SE-MoE outperformed DeepSpeed with 33% higher throughput (tokens per second) in
training and 13% higher throughput in inference in general. Particularly, under
unbalanced MoE Tasks, e.g., UFO, SE-MoE achieved 64% higher throughput with 18%
lower memory footprints. The code of the framework will be released on:
https://github.com/PaddlePaddle/Paddle.
- Abstract(参考訳): 近年,ML インフラストラクチャの多様性が増しているため,多種多様なコンピューティングシステムによる分散トレーニングが望まれている。
Mixture-of-Experts(MoE)モデルは、ゲーティングと並列化によってモデル/データの全体サイズに応じたトレーニングコストを低減するために提案されている。
DeepSpeedは、異種インフラストラクチャ上で大規模なMoEトレーニングを実施する努力を続けているが、トレーニングと推論の効率は、ロードバランシング、通信/計算効率、メモリフットプリント制限など、いくつかのシステム側面からさらに改善される可能性がある。
本研究では,階層型ストレージ上での2次元プリフェッチとフュージョン通信による弾力的MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがgpuメモリより大きい場合、se-moeはcpu-gpuメモリを複数のセクションに結合してロードし、効率的な推論のためにメモリセクションをまたいで計算タスクを実行する。
se-moeの評価実験を行い、48 a100 gpuカード上で8日で12bのパラメータのばらばらなミックスド・オブ・エキスパートズモデルを用いた統一機能最適化(ufo)モデルのトレーニングに成功した。
最先端と比較すると、SE-MoEはDeepSpeedより33%高いスループット(秒間トークン)、一般の推論では13%高いスループットでパフォーマンスが向上した。
特に、不均衡なMoEタスク、例えばUFOでは、SE-MoEは64%高いスループットを実現し、18%低いメモリフットプリントを実現した。
フレームワークのコードは、https://github.com/PaddlePaddle/Paddle.comでリリースされる。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Efficient Parallelization Layouts for Large-Scale Distributed Model Training [17.16249954009967]
本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。
マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。
最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
論文 参考訳(メタデータ) (2023-11-09T18:59:38Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。