論文の概要: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning
- arxiv url: http://arxiv.org/abs/2104.07857v1
- Date: Fri, 16 Apr 2021 02:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 04:23:24.780164
- Title: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning
- Title(参考訳): ZeRO-Infinity:超大規模ディープラーニングのためのGPUメモリウォールの破壊
- Authors: Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith,
Yuxiong He
- Abstract要約: ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
- 参考スコア(独自算出の注目度): 9.322987670900778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last three years, the largest dense deep learning models have grown
over 1000x to reach hundreds of billions of parameters, while the GPU memory
has only grown by 5x (16 GB to 80 GB). Therefore, the growth in model scale has
been supported primarily though system innovations that allow large models to
fit in the aggregate GPU memory of multiple GPUs. However, we are getting close
to the GPU memory wall. It requires 800 NVIDIA V100 GPUs just to fit a trillion
parameter model for training, and such clusters are simply out of reach for
most data scientists. In addition, training models at that scale requires
complex combinations of parallelism techniques that puts a big burden on the
data scientists to refactor their model.
In this paper we present ZeRO-Infinity, a novel heterogeneous system
technology that leverages GPU, CPU, and NVMe memory to allow for unprecedented
model scale on limited resources without requiring model code refactoring. At
the same time it achieves excellent training throughput and scalability,
unencumbered by the limited CPU or NVMe bandwidth. ZeRO-Infinity can fit models
with tens and even hundreds of trillions of parameters for training on current
generation GPU clusters. It can be used to fine-tune trillion parameter models
on a single NVIDIA DGX-2 node, making large models more accessible. In terms of
training throughput and scalability, it sustains over 25 petaflops on 512
NVIDIA V100 GPUs(40% of peak), while also demonstrating super linear
scalability. An open source implementation of ZeRO-Infinity is available
through DeepSpeed, a deep learning optimization library that makes distributed
training easy, efficient, and effective.
- Abstract(参考訳): 過去3年間で、最大の深層学習モデルは数千億のパラメータに達するために1000倍以上に成長し、GPUメモリは5倍(16 GBから80 GB)しか成長していない。
そのため、大規模なモデルが複数のGPUの集積GPUメモリに収まるようなシステム革新は、主にモデルスケールの成長を支持している。
しかし、私たちはgpuメモリウォールに近づいています。
トレーニングに1兆分の1のパラメータモデルに適合するには800nvidia v100 gpuが必要であり、そのようなクラスタは、ほとんどのデータサイエンティストにとって手が届かない。
さらに、このスケールでのトレーニングモデルには、データサイエンティストがモデルをリファクタリングする上で大きな負担を負う並列処理テクニックの複雑な組み合わせが必要になります。
本稿では,GPU,CPU,NVMeメモリを利用した新しい異種システム技術であるZeRO-Infinityを提案する。
同時に、CPUやNVMe帯域に制限されずに、優れたトレーニングスループットとスケーラビリティを実現している。
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするために、モデルに数十から数百兆のパラメータを適合させることができる。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
トレーニングスループットとスケーラビリティの面では、512 NVIDIA V100 GPU(ピークの40%)上で25ペタフロップス以上を持続すると同時に、超リニアスケーラビリティを実証する。
ZeRO-Infinityのオープンソース実装であるDeepSpeedは、分散トレーニングを簡単、効率的、効果的にするためのディープラーニング最適化ライブラリである。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。