論文の概要: ZeRO-Offload: Democratizing Billion-Scale Model Training
- arxiv url: http://arxiv.org/abs/2101.06840v1
- Date: Mon, 18 Jan 2021 02:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 18:42:28.135761
- Title: ZeRO-Offload: Democratizing Billion-Scale Model Training
- Title(参考訳): ZeRO-Offload: 数十億ドル規模のモデルトレーニングを民主化
- Authors: Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase,
Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He
- Abstract要約: ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
- 参考スコア(独自算出の注目度): 16.43347399073034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale model training has been a playing ground for a limited few
requiring complex model refactoring and access to prohibitively expensive GPU
clusters. ZeRO-Offload changes the large model training landscape by making
large model training accessible to nearly everyone. It can train models with
over 13 billion parameters on a single GPU, a 10x increase in size compared to
popular framework such as PyTorch, and it does so without requiring any model
change from the data scientists or sacrificing computational efficiency.
ZeRO-Offload enables large model training by offloading data and compute to
CPU. To preserve compute efficiency, it is designed to minimize the data
movement to/from GPU, and reduce CPU compute time while maximizing memory
savings on GPU. As a result, ZeRO-Offload can achieve 40 TFlops/GPU on a single
NVIDIA V100 GPU for 10B parameter model compared to 30TF using PyTorch alone
for a 1.4B parameter model, the largest that can be trained without running out
of memory. ZeRO-Offload is also designed to scale on multiple-GPUs when
available, offering near linear speedup on up to 128 GPUs. Additionally, it can
work together with model parallelism to train models with over 70 billion
parameters on a single DGX-2 box, a 4.5x increase in model size compared to
using model parallelism alone. By combining compute and memory efficiency with
ease-of-use, ZeRO-Offload democratizes large-scale model training making it
accessible to even data scientists with access to just a single GPU.
- Abstract(参考訳): 大規模モデルのトレーニングは、複雑なモデルのリファクタリングと、非常に高価なgpuクラスタへのアクセスを必要とするごく少数の理由の1つだ。
ZeRO-Offloadは、大きめのモデルトレーニング環境を、ほぼすべての人が利用できるようにすることで変更する。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングすることが可能で、PyTorchのような一般的なフレームワークと比較して10倍の規模で、データサイエンティストからモデル変更を必要とせず、計算効率を犠牲にする必要がない。
ZeRO-Offloadはデータと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
計算効率を維持するため、GPUへのデータ移動を最小化し、GPU上のメモリ節約を最大化しながらCPU計算時間を短縮するように設計されている。
その結果、ZeRO-Offloadは、1つのNVIDIA V100 GPUで10Bパラメータモデルで40 TFlops/GPUを達成することができ、PyTorch単独で1.4Bパラメータモデルで30TFを使用するのに対して、メモリを使い果たさずにトレーニングできる最大である。
ZeRO-Offloadはまた、利用可能な場合、複数のGPUでスケールするように設計されており、最大128GPUでほぼ線形スピードアップを提供する。
さらに、1つのDGX-2ボックスに700億以上のパラメータを持つモデルをトレーニングするために、モデルの並列性と連携することができる。
ZeRO-Offloadは計算とメモリ効率と使いやすさを組み合わせることで、大規模なモデルトレーニングを民主化し、単一のGPUにアクセス可能なデータサイエンティストにもアクセスできるようにする。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。