論文の概要: 2.5-dimensional distributed model training
- arxiv url: http://arxiv.org/abs/2105.14500v1
- Date: Sun, 30 May 2021 11:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:33:42.648281
- Title: 2.5-dimensional distributed model training
- Title(参考訳): 2.5次元分散モデルトレーニング
- Authors: Boxiang Wang, Qifan Xu, Zhengda Bian, Yang You
- Abstract要約: 本稿では,言語モデル並列化による不要な伝送損失を克服するために,言語モデルのためのSUMMA2.5-LMを提案する。
従来の1次元モデルと2次元モデルの並列化と比較すると,SUMMA2.5-LMは各層での伝送コストを削減でき,効率は1.45倍に向上した。
- 参考スコア(独自算出の注目度): 7.471658821614902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data parallelism does a good job in speeding up the training. However, when
it comes to the case when the memory of a single device can not host a whole
model, data parallelism would not have the chance to do anything. Another
option is to split the model by operator, or horizontally. Megatron-LM
introduced a 1-Dimensional distributed method to use GPUs to speed up the
training process. Optimus is a 2D solution for distributed tensor parallelism.
However, these methods have a high communication overhead and a low scaling
efficiency on large-scale computing clusters. To solve this problem, we
investigate the 2.5-Dimensional distributed tensor parallelism.Introduced by
Solomonik et al., 2.5-Dimensional Matrix Multiplication developed an effective
method to perform multiple Cannon's algorithm at the same time to increase the
efficiency. With many restrictions of Cannon's Algorithm and a huge amount of
shift operation, we need to invent a new method of 2.5-dimensional matrix
multiplication to enhance the performance. Absorbing the essence from both
SUMMA and 2.5-Dimensional Matrix Multiplication, we introduced SUMMA2.5-LM for
language models to overcome the abundance of unnecessary transmission loss
result from the increasing size of language model parallelism. Compared to
previous 1D and 2D model parallelization of language models, our SUMMA2.5-LM
managed to reduce the transmission cost on each layer, which could get a 1.45X
efficiency according to our weak scaling result between 2.5-D [4,4,4]
arrangement and 2-D [8,8,1] arrangement.
- Abstract(参考訳): データ並列処理はトレーニングのスピードアップに役立ちます。
しかし、単一のデバイスのメモリがモデル全体をホストできない場合、データ並列処理は、何もできないだろう。
もうひとつの選択肢は、モデルをオペレータによって、あるいは水平に分割することです。
Megatron-LMはトレーニングプロセスを高速化するためにGPUを使用する1次元分散手法を導入した。
Optimusは分散テンソル並列性のための2次元解である。
しかし,これらの手法は大規模コンピューティングクラスタ上での通信オーバーヘッドが高く,スケーリング効率も低い。
本研究では, 2.5次元分散テンソル並列性について検討し, 2.5次元行列乗算法を用いて複数のキャノンのアルゴリズムを同時に実行し, 効率を向上させる効果的な手法を開発した。
キャノンアルゴリズムの多くの制限と膨大なシフト演算により、性能を向上させるために2.5次元行列乗算の新しい手法を考案する必要がある。
SUMMAと2.5次元行列乗法の両方の本質を吸収し,言語モデルにおけるSUMMA2.5-LMを導入し,言語モデル並列化の増大による不必要な伝達損失の増大を克服した。
従来の言語モデルの1Dおよび2Dモデル並列化と比較して,SUMMA2.5-LMは,2.5-D[4,4,4]配列と2-D[8,8,1]配列の弱いスケーリング結果に応じて,各層での伝送コストを1.45倍に削減することができた。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。