論文の概要: SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System
- arxiv url: http://arxiv.org/abs/2205.10034v1
- Date: Fri, 20 May 2022 09:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:03:40.105541
- Title: SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System
- Title(参考訳): se-moe - スケーラブルで効率的な分散トレーニングと推論システム
- Authors: Liang Shen, Zhihua Wu, WeiBao Gong, Hongxiang Hao, Yangfan Bai,
HuaChao Wu, Xinxuan Wu, Haoyi Xiong, Dianhai Yu, Yanjun Ma
- Abstract要約: Mixture-of-Experts (MoE)モデルは、モデル/データ全体のサイズに応じてトレーニングコストを下げるために提案されている。
階層ストレージ上での2次元プリフェッチとフュージョン通信による弾性MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、SE-MoEはCPU-GPUメモリを1つのセクションのリングに結合してモデルを読み込む。
- 参考スコア(独自算出の注目度): 20.485550395116366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing diversity of ML infrastructures nowadays, distributed
training over heterogeneous computing systems is desired to facilitate the
production of big models. Mixture-of-Experts (MoE) models have been proposed to
lower the cost of training subject to the overall size of models/data through
gating and parallelism in a divide-and-conquer fashion. While DeepSpeed has
made efforts in carrying out large-scale MoE training over heterogeneous
infrastructures, the efficiency of training and inference could be further
improved from several system aspects, including load balancing,
communication/computation efficiency, and memory footprint limits. In this
work, we present SE-MoE that proposes Elastic MoE training with 2D prefetch and
Fusion communication over Hierarchical storage, so as to enjoy efficient
parallelisms in various types. For scalable inference in a single node,
especially when the model size is larger than GPU memory, SE-MoE forms the
CPU-GPU memory jointly into a ring of sections to load the model, and executes
the computation tasks across the memory sections in a round-robin manner for
efficient inference. We carried out extensive experiments to evaluate SE-MoE,
where SE-MoE successfully trains a Unified Feature Optimization (UFO) model
with a Sparsely-Gated Mixture-of-Experts model of 12B parameters in 8 days on
48 A100 GPU cards. The comparison against the state-of-the-art shows that
SE-MoE outperformed DeepSpeed with 33% higher throughput (tokens per second) in
training and 13% higher throughput in inference in general. Particularly, under
unbalanced MoE Tasks, e.g., UFO, SE-MoE achieved 64% higher throughput with 18%
lower memory footprints. The code of the framework will be released on:
https://github.com/PaddlePaddle/Paddle.
- Abstract(参考訳): 近年,ML インフラストラクチャの多様性が増しているため,多種多様なコンピューティングシステムによる分散トレーニングが望まれている。
Mixture-of-Experts(MoE)モデルは、ゲーティングと並列化によってモデル/データの全体サイズに応じたトレーニングコストを低減するために提案されている。
DeepSpeedは、異種インフラストラクチャ上で大規模なMoEトレーニングを実施する努力を続けているが、トレーニングと推論の効率は、ロードバランシング、通信/計算効率、メモリフットプリント制限など、いくつかのシステム側面からさらに改善される可能性がある。
本研究では,階層型ストレージ上での2次元プリフェッチとフュージョン通信による弾力的MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがgpuメモリより大きい場合、se-moeはcpu-gpuメモリを複数のセクションに結合してロードし、効率的な推論のためにメモリセクションをまたいで計算タスクを実行する。
se-moeの評価実験を行い、48 a100 gpuカード上で8日で12bのパラメータのばらばらなミックスド・オブ・エキスパートズモデルを用いた統一機能最適化(ufo)モデルのトレーニングに成功した。
最先端と比較すると、SE-MoEはDeepSpeedより33%高いスループット(秒間トークン)、一般の推論では13%高いスループットでパフォーマンスが向上した。
特に、不均衡なMoEタスク、例えばUFOでは、SE-MoEは64%高いスループットを実現し、18%低いメモリフットプリントを実現した。
フレームワークのコードは、https://github.com/PaddlePaddle/Paddle.comでリリースされる。
関連論文リスト
- CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Efficient Parallelization Layouts for Large-Scale Distributed Model
Training [18.41271819407099]
本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。
マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。
最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
論文 参考訳(メタデータ) (2023-11-09T18:59:38Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - FastMoE: A Fast Mixture-of-Expert Training System [20.74001755688784]
Mixture-of-Expert (MoE) は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
FastMoEはPyTorchをベースとした分散MoEトレーニングシステムである。
論文 参考訳(メタデータ) (2021-03-24T15:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。