論文の概要: An Efficient 2D Method for Training Super-Large Deep Learning Models
- arxiv url: http://arxiv.org/abs/2104.05343v1
- Date: Mon, 12 Apr 2021 10:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:49:35.487469
- Title: An Efficient 2D Method for Training Super-Large Deep Learning Models
- Title(参考訳): 超大深層学習モデルの効率的な2次元学習法
- Authors: Qifan Xu and Shenggui Li and Chaoyu Gong and Yang You
- Abstract要約: 巨大なニューラルネットワークモデルは、現実世界のアプリケーションで前例のないパフォーマンスを示している。
メモリ制約のため、モデル並列性は単一のデバイスのメモリに収まらない大きなモデルをホストするために利用されなければならない。
我々は,無限大言語モデルの学習を容易にするモデル並列処理の,高効率でスケーラブルな2次元分割パラダイムであるoptimusを提案する。
- 参考スコア(独自算出の注目度): 6.468027615451125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Huge neural network models have shown unprecedented performance in real-world
applications. However, due to memory constraints, model parallelism must be
utilized to host large models that would otherwise not fit into the memory of a
single device. Previous methods like Megatron partition the parameters of the
entire model among multiple devices, while each device has to accommodate the
redundant activations in forward and backward pass. In this work, we propose
Optimus, a highly efficient and scalable 2D-partition paradigm of model
parallelism that would facilitate the training of infinitely large language
models. In Optimus, activations are partitioned and distributed among devices,
further reducing redundancy. In terms of isoefficiency, Optimus significantly
outperforms Megatron. On 64 GPUs of TACC Frontera, Optimus achieves 1.48X
speedup for training, 1.78X speedup for inference, and 8X increase in maximum
batch size over Megatron. Optimus surpasses Megatron in scaling efficiency by a
great margin. The code is available at https://github.com/xuqifan897/Optimus.
- Abstract(参考訳): 巨大なニューラルネットワークモデルは、現実世界のアプリケーションで前例のないパフォーマンスを示している。
しかし、メモリ制約のため、モデル並列性は単一のデバイスのメモリに収まらない大規模なモデルをホストするために利用する必要がある。
以前の方法であるmegatronはモデル全体のパラメータを複数のデバイスに分割するが、各デバイスは前方および後方パスでの冗長なアクティベーションに対応する必要がある。
本研究では,無限大言語モデルの学習を容易にするモデル並列処理の高効率かつスケーラブルな2次元並列化パラダイムであるoptimusを提案する。
Optimusでは、アクティベーションは分割され、デバイス間で分散される。
等効率の点で、オプティマスはメガトロンを著しく上回っている。
TACC Fronteraの64GPUでは、Optimusはトレーニング用の1.48倍のスピードアップ、推論用の1.78倍のスピードアップ、Megatronよりも最大バッチサイズが8倍に向上している。
OptimusはMegatronのスケーリング効率を大きく上回っている。
コードはhttps://github.com/xuqifan897/optimusで入手できる。
関連論文リスト
- Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。
同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.75694077842604]
文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。
Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
論文 参考訳(メタデータ) (2024-04-12T20:28:14Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - 2.5-dimensional distributed model training [7.471658821614902]
本稿では,言語モデル並列化による不要な伝送損失を克服するために,言語モデルのためのSUMMA2.5-LMを提案する。
従来の1次元モデルと2次元モデルの並列化と比較すると,SUMMA2.5-LMは各層での伝送コストを削減でき,効率は1.45倍に向上した。
論文 参考訳(メタデータ) (2021-05-30T11:06:49Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。