論文の概要: Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism
- arxiv url: http://arxiv.org/abs/2304.11414v1
- Date: Sat, 22 Apr 2023 14:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:40:41.171342
- Title: Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism
- Title(参考訳): Pipeline MoE: パイプライン並列性を備えた柔軟なMoE実装
- Authors: Xin Chen, Hengheng Zhang, Xiaotao Gu, Kaifeng Bi, Lingxi Xie, Qi Tian
- Abstract要約: 既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
- 参考スコア(独自算出の注目度): 91.9372563527801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) model becomes an important choice of large
language models nowadays because of its scalability with sublinear
computational complexity for training and inference. However, existing MoE
models suffer from two critical drawbacks, 1) tremendous inner-node and
inter-node communication overhead introduced by all-to-all dispatching and
gathering, and 2) limited scalability for the backbone because of the bound
data parallel and expert parallel to scale in the expert dimension. In this
paper, we systematically analyze these drawbacks in terms of training
efficiency in the parallel framework view and propose a novel MoE architecture
called Pipeline MoE (PPMoE) to tackle them. PPMoE builds expert parallel
incorporating with tensor parallel and replaces communication-intensive
all-to-all dispatching and gathering with a simple tensor index slicing and
inner-node all-reduce. Besides, it is convenient for PPMoE to integrate
pipeline parallel to further scale the backbone due to its flexible parallel
architecture. Extensive experiments show that PPMoE not only achieves a more
than $1.75\times$ speed up compared to existing MoE architectures but also
reaches $90\%$ throughput of its corresponding backbone model that is
$20\times$ smaller.
- Abstract(参考訳): 現在、Mixture of Experts (MoE) モデルは、トレーニングと推論のためのサブ線形計算の複雑さを伴うスケーラビリティのため、大規模言語モデルの重要な選択肢となっている。
しかし、既存のmoeモデルは2つの重大な欠点を抱えている。
1)全発送・集結による極端内部通信とノード間通信のオーバーヘッド
2) 境界データ並列性とエキスパート次元のスケールに平行なエキスパートのために、バックボーンのスケーラビリティは限られている。
本稿では,並列フレームワークビューにおけるトレーニング効率の観点から,これらの欠点を体系的に解析し,それに対応するための新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
ppmoeは、tensor parallelを組み込んだエキスパート並列を構築し、単純なテンソルインデックススライシングとインナーノードall-reduceで通信集約的なall-to-allディスパッチとアグリゲーションを置き換える。
さらに、PPMoEがパイプライン並列を統合してバックボーンをさらに拡張するのは、柔軟性のある並列アーキテクチャのため便利である。
大規模な実験によると、PPMoEは既存のMoEアーキテクチャと比較して1.75ドル以上のスピードアップを達成するだけでなく、対応するバックボーンモデルの90ドル%のスループットを達成している。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。