論文の概要: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning
- arxiv url: http://arxiv.org/abs/2104.07857v1
- Date: Fri, 16 Apr 2021 02:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 04:23:24.780164
- Title: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning
- Title(参考訳): ZeRO-Infinity:超大規模ディープラーニングのためのGPUメモリウォールの破壊
- Authors: Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith,
Yuxiong He
- Abstract要約: ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
- 参考スコア(独自算出の注目度): 9.322987670900778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last three years, the largest dense deep learning models have grown
over 1000x to reach hundreds of billions of parameters, while the GPU memory
has only grown by 5x (16 GB to 80 GB). Therefore, the growth in model scale has
been supported primarily though system innovations that allow large models to
fit in the aggregate GPU memory of multiple GPUs. However, we are getting close
to the GPU memory wall. It requires 800 NVIDIA V100 GPUs just to fit a trillion
parameter model for training, and such clusters are simply out of reach for
most data scientists. In addition, training models at that scale requires
complex combinations of parallelism techniques that puts a big burden on the
data scientists to refactor their model.
In this paper we present ZeRO-Infinity, a novel heterogeneous system
technology that leverages GPU, CPU, and NVMe memory to allow for unprecedented
model scale on limited resources without requiring model code refactoring. At
the same time it achieves excellent training throughput and scalability,
unencumbered by the limited CPU or NVMe bandwidth. ZeRO-Infinity can fit models
with tens and even hundreds of trillions of parameters for training on current
generation GPU clusters. It can be used to fine-tune trillion parameter models
on a single NVIDIA DGX-2 node, making large models more accessible. In terms of
training throughput and scalability, it sustains over 25 petaflops on 512
NVIDIA V100 GPUs(40% of peak), while also demonstrating super linear
scalability. An open source implementation of ZeRO-Infinity is available
through DeepSpeed, a deep learning optimization library that makes distributed
training easy, efficient, and effective.
- Abstract(参考訳): 過去3年間で、最大の深層学習モデルは数千億のパラメータに達するために1000倍以上に成長し、GPUメモリは5倍(16 GBから80 GB)しか成長していない。
そのため、大規模なモデルが複数のGPUの集積GPUメモリに収まるようなシステム革新は、主にモデルスケールの成長を支持している。
しかし、私たちはgpuメモリウォールに近づいています。
トレーニングに1兆分の1のパラメータモデルに適合するには800nvidia v100 gpuが必要であり、そのようなクラスタは、ほとんどのデータサイエンティストにとって手が届かない。
さらに、このスケールでのトレーニングモデルには、データサイエンティストがモデルをリファクタリングする上で大きな負担を負う並列処理テクニックの複雑な組み合わせが必要になります。
本稿では,GPU,CPU,NVMeメモリを利用した新しい異種システム技術であるZeRO-Infinityを提案する。
同時に、CPUやNVMe帯域に制限されずに、優れたトレーニングスループットとスケーラビリティを実現している。
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするために、モデルに数十から数百兆のパラメータを適合させることができる。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
トレーニングスループットとスケーラビリティの面では、512 NVIDIA V100 GPU(ピークの40%)上で25ペタフロップス以上を持続すると同時に、超リニアスケーラビリティを実証する。
ZeRO-Infinityのオープンソース実装であるDeepSpeedは、分散トレーニングを簡単、効率的、効果的にするためのディープラーニング最適化ライブラリである。
関連論文リスト
- FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。