論文の概要: Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers
- arxiv url: http://arxiv.org/abs/2202.01306v1
- Date: Wed, 2 Feb 2022 22:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:47:26.528069
- Title: Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers
- Title(参考訳): Harmony:GPUメモリ容量のハードルを克服して,コモディティサーバ上で大規模なDNNモデルをトレーニング
- Authors: Youjie Li, Amar Phanishayee, Derek Murray, Jakub Tarnawski, Nam Sung
Kim
- Abstract要約: ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
- 参考スコア(独自算出の注目度): 13.620650014358413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have grown exponentially in complexity and size
over the past decade, leaving only those who have access to massive
datacenter-based resources with the ability to develop and train such models.
One of the main challenges for the long tail of researchers who might have
access to only limited resources (e.g., a single multi-GPU server) is limited
GPU memory capacity compared to model size. The problem is so acute that the
memory requirement of training large DNN models can often exceed the aggregate
capacity of all available GPUs on commodity servers; this problem only gets
worse with the trend of ever-growing model sizes. Current solutions that rely
on virtualizing GPU memory (by swapping to/from CPU memory) incur excessive
swapping overhead. In this paper, we present a new training framework, Harmony,
and advocate rethinking how DNN frameworks schedule computation and move data
to push the boundaries of training large models efficiently on modest multi-GPU
deployments. Across many large DNN models, Harmony is able to reduce swap load
by up to two orders of magnitude and obtain a training throughput speedup of up
to 7.6x over highly optimized baselines with virtualized memory.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)は、過去10年間で複雑さとサイズが指数関数的に増大し、そのようなモデルの開発とトレーニングが可能な巨大なデータセンタベースのリソースにアクセス可能な人だけが残った。
限られたリソース(例えば単一のマルチGPUサーバ)しかアクセスできない研究者の長い尾にとっての大きな課題の1つは、モデルサイズと比較してGPUメモリ容量の制限である。
大規模なDNNモデルをトレーニングする際のメモリ要件が、コモディティサーバ上で利用可能なGPUの総容量を超えることがしばしばあるため、この問題は、成長を続けるモデルサイズの傾向によってのみ悪化する。
GPUメモリの仮想化(CPUメモリへの切り替えによる)に依存している現在のソリューションは、過度のスワップオーバーヘッドを発生させる。
本稿では,新しいトレーニングフレームワークであるharmonyについて述べるとともに,dnnフレームワークが計算をスケジュールし,データを移動して,控えめなマルチgpuデプロイメントで大規模モデルのトレーニングを効率的に行う方法について再考する。
多くの大規模dnnモデルにおいて、harmonyはスワップロードを最大2桁削減でき、仮想メモリを備えた高度に最適化されたベースラインよりも最大7.6倍のトレーニングスループットのスピードアップを得ることができる。
関連論文リスト
- GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs
on Large Clusters [8.137466511979586]
グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も急速に成長している分野の1つである。
GraNNDisは、大きなグラフとディープレイヤ上でGNNをトレーニングするための、効率的な分散GNNトレーニングフレームワークである。
GraNNDisは最先端の分散GNNトレーニングフレームワークよりも優れたスピードアップを提供する。
論文 参考訳(メタデータ) (2023-11-12T13:30:31Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Graph Ladling: Shockingly Simple Parallel GNN Training without
Intermediate Communication [100.51884192970499]
GNNは、グラフを学習するニューラルネットワークの強力なファミリーである。
GNNのスケーリングは、肥大化または拡大によって、不健康な勾配、過度なスムースメント、情報のスカッシングといった問題に悩まされる。
本稿では,現在のGNNの深層化や拡張ではなく,GNNに適したモデルスープをデータ中心の視点で表現することを提案する。
論文 参考訳(メタデータ) (2023-06-18T03:33:46Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z) - Accelerating Multi-Model Inference by Merging DNNs of Different Weights [3.4123736336071864]
我々は,異なる重みと異なる入力を持つ同一アーキテクチャを共有する複数のDNNモデルをマージする手法であるNetFuseを提案する。
ResNet-50、ResNeXt-50、BERT、XLNetの実験によると、NetFuseはNVIDIA V100 GPUでDNN推論時間を最大3.6倍に高速化できる。
論文 参考訳(メタデータ) (2020-09-28T04:33:09Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。