Fugu-MT 論文翻訳(概要): A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training

論文の概要: A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training

arxiv url: http://arxiv.org/abs/2303.06318v1
Date: Sat, 11 Mar 2023 05:38:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 19:35:36.556062
Title: A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training
Title（参考訳）: 新しいテンソル・エクスプロットハイブリッド並列性アプローチ : エクササイズ・オブ・エクササイズトレーニング
Authors: Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele
Abstract要約: Mixture-of-Experts (MoE)と呼ばれる新しいニューラルネットワークアーキテクチャが提案されている。テンソル,エキスパート,データを組み合わせて,MoEモデルの4～8倍の大きなベースモデルによるトレーニングを可能にする,新しい3次元ハイブリッド並列アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 13.346719319555943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A new neural network architecture called Mixture-of-Experts (MoE) has been proposed recently that increases the parameters of a neural network (the base model) by adding sparsely activated expert blocks, without changing the total number of floating point operations for training or inference. In theory, this architecture allows us to train arbitrarily large models while keeping the computational costs same as that of the base model. However, beyond 64 to 128 experts blocks, prior work has observed diminishing returns in the test accuracies of these MoE models. Thus, training high quality MoE models requires us to scale the size of the base models, along with the number of expert blocks. In this work, we propose a novel, three-dimensional, hybrid parallel algorithm that combines tensor, expert, and data parallelism to enable the training of MoE models with 4-8x larger base models than the current state-of-the-art -- DeepSpeed-MoE. We propose memory optimizations in the optimizer step, and communication optimizations that eliminate redundant movement of data. Removing these redundancies provides a speedup of nearly 21%. When training a 40 billion parameter MoE model (6.7 billion base model with 16 experts) on 128 V100 GPUs, our optimizations significantly improve the peak half precision flop/s from 20% to 27%.
Abstract（参考訳）: Mixture-of-Experts (MoE)と呼ばれる新しいニューラルネットワークアーキテクチャが最近提案され、トレーニングや推論のための浮動小数点演算の総数を変更することなく、わずかに活性化された専門家ブロックを追加することにより、ニューラルネットワーク(ベースモデル)のパラメータを増加させる。理論的には、このアーキテクチャはベースモデルと同じ計算コストを維持しながら、任意に大きなモデルを訓練することができる。しかし、64から128のエキスパートブロックを超える前の研究では、これらのMoEモデルの試験精度の低下が観測された。したがって、高品質なMoEモデルをトレーニングするには、エキスパートブロックの数とともにベースモデルのサイズをスケールする必要があります。本研究では,現在最先端のDeepSpeed-MoEよりも4～8倍大きなベースモデルによるMoEモデルのトレーニングを可能にするために,テンソル,エキスパート,データ並列性を組み合わせた3次元ハイブリッド並列アルゴリズムを提案する。本稿では、メモリ最適化と余剰なデータの移動をなくす通信最適化を提案する。これらの冗長性を取り除くことは、約21%のスピードアップをもたらす。 128V100 GPU上で400億のパラメータMOEモデル(16のエキスパートを持つ670億ベースモデル)をトレーニングする場合、最適化によってピーク半精度フロップ/sを20%から27%に大幅に改善します。

関連論文リスト

AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
MoNTA: Accelerating Mixture-of-Experts Training with Network-Traffc-Aware Parallel Optimization [21.993498492979672]
Mixture of Experts (MoE) は、複数の専門的な専門家モデルと1つのスーパーモデルを組み合わせた、業界における先進的なモデルアーキテクチャである。本稿では,通信量に基づいて最適な並列戦略を選択する,ネットワークトラヒック対応並列最適化手法を提案する。
論文参考訳（メタデータ） (2024-11-01T15:27:20Z)
GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文参考訳（メタデータ） (2024-09-18T17:00:20Z)
Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。 Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文参考訳（メタデータ） (2024-06-30T05:55:11Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。 AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文参考訳（メタデータ） (2023-05-22T22:41:49Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文参考訳（メタデータ） (2022-07-18T15:05:17Z)
Merak: An Efficient Distributed DNN Training Framework with Automated 3D Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。 Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。 Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文参考訳（メタデータ） (2022-06-10T09:15:48Z)
MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文参考訳（メタデータ） (2022-05-20T09:09:27Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。