論文の概要: Efficient Strong Scaling Through Burst Parallel Training
- arxiv url: http://arxiv.org/abs/2112.10065v1
- Date: Sun, 19 Dec 2021 05:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:09:44.428253
- Title: Efficient Strong Scaling Through Burst Parallel Training
- Title(参考訳): バースト並列トレーニングによる効率的なストロングスケーリング
- Authors: Seo Jin Park, Joshua Fried, Sunghyun Kim, Mohammad Alizadeh, Adam
Belay
- Abstract要約: 大規模なGPUクラスタを使用して、ディープニューラルネットワーク(DNN)モデルをトレーニングすることが、必須の要件になっています。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
- 参考スコア(独自算出の注目度): 13.656104138147967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As emerging deep neural network (DNN) models continue to grow in size, using
large GPU clusters to train DNNs is becoming an essential requirement to
achieving acceptable training times. In this paper, we consider the case where
future increases in cluster size will cause the global batch size that can be
used to train models to reach a fundamental limit: beyond a certain point,
larger global batch sizes cause sample efficiency to degrade, increasing
overall time to accuracy. As a result, to achieve further improvements in
training performance, we must instead consider "strong scaling" strategies that
hold the global batch size constant and allocate smaller batches to each GPU.
Unfortunately, this makes it significantly more difficult to use cluster
resources efficiently. We present DeepPool, a system that addresses this
efficiency challenge through two key ideas. First, burst parallelism allocates
large numbers of GPUs to foreground jobs in bursts to exploit the unevenness in
parallelism across layers. Second, GPU multiplexing prioritizes throughput for
foreground training jobs, while packing in background training jobs to reclaim
underutilized GPU resources, thereby improving cluster-wide utilization.
Together, these two ideas enable DeepPool to deliver a 2.2 - 2.4x improvement
in total cluster throughput over standard data parallelism with a single task
when the cluster scale is large.
- Abstract(参考訳): 新興のディープニューラルネットワーク(DNN)モデルのサイズが拡大するにつれて、DNNのトレーニングに大規模なGPUクラスタを使用することは、許容できるトレーニング時間を達成する上で必須の要件となっている。
本稿では,クラスタサイズが今後大きくなると,モデルトレーニングに使用可能なグローバルバッチサイズが基本的限界に達することを考察する: ある点を超えると,より大規模なグローバルバッチサイズがサンプル効率を低下させ,全体的な時間と精度を向上させる。
結果として、トレーニングパフォーマンスのさらなる改善を達成するには、グローバルバッチサイズを一定に保ち、各GPUに小さなバッチを割り当てる"強いスケーリング"戦略を検討する必要があります。
残念ながら、これはクラスタリソースを効率的に使うのを著しく難しくする。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
まず、バースト並列性は多数のGPUを割り当て、バースト内のジョブをフォアグラウンドし、レイヤ間の並列性の不均一性を利用する。
第二に、GPUの多重化は前景のトレーニングジョブのスループットを優先し、バックグラウンドのトレーニングジョブをパックして未使用のGPUリソースを再利用し、クラスタ全体の利用を改善する。
これら2つのアイデアを組み合わせることで、deeppoolは、クラスタ規模が大きい場合に、単一のタスクで、標準的なデータ並列処理よりもクラスタ全体のスループットを2.2倍から2.4倍向上させることができる。
関連論文リスト
- Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs
on Large Clusters [8.137466511979586]
グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も急速に成長している分野の1つである。
GraNNDisは、大きなグラフとディープレイヤ上でGNNをトレーニングするための、効率的な分散GNNトレーニングフレームワークである。
GraNNDisは最先端の分散GNNトレーニングフレームワークよりも優れたスピードアップを提供する。
論文 参考訳(メタデータ) (2023-11-12T13:30:31Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism [3.4377970608678314]
大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
論文 参考訳(メタデータ) (2020-07-25T05:06:06Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。