論文の概要: SplitBrain: Hybrid Data and Model Parallel Deep Learning
- arxiv url: http://arxiv.org/abs/2112.15317v1
- Date: Fri, 31 Dec 2021 06:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:23:10.097675
- Title: SplitBrain: Hybrid Data and Model Parallel Deep Learning
- Title(参考訳): SplitBrain: ハイブリッドデータとモデル並列ディープラーニング
- Authors: Farley Lai, Asim Kadav, Erik Kruus
- Abstract要約: 本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
- 参考スコア(独自算出の注目度): 11.63431725146897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of deep learning applications has coincided with those
widely available powerful computational resources for training sophisticated
machine learning models with huge datasets. Nonetheless, training large models
such as convolutional neural networks using model parallelism (as opposed to
data parallelism) is challenging because the complex nature of communication
between model shards makes it difficult to partition the computation
efficiently across multiple machines with an acceptable trade-off. This paper
presents SplitBrain, a high performance distributed deep learning framework
supporting hybrid data and model parallelism. Specifically, SplitBrain provides
layer-specific partitioning that co-locates compute intensive convolutional
layers while sharding memory demanding layers. A novel scalable group
communication is proposed to further improve the training throughput with
reduced communication overhead. The results show that SplitBrain can achieve
nearly linear speedup while saving up to 67\% of memory consumption for data
and model parallel VGG over CIFAR-10.
- Abstract(参考訳): ディープラーニングアプリケーションの最近の成功は、巨大なデータセットを持つ高度な機械学習モデルをトレーニングするための、広く利用可能な強力な計算リソースと一致している。
それでも、モデル並列性(データ並列性とは対照的に)を用いた畳み込みニューラルネットワークなどの大規模モデルのトレーニングは、モデルシャード間の通信の複雑な性質が、許容できるトレードオフで複数のマシン間で効率的に計算を分割することを困難にしているため、難しい。
本稿ではハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を共配置する層固有のパーティショニングを提供する。
通信オーバーヘッドを低減し,さらにトレーニングスループットを向上させるために,スケーラブルなグループ通信を提案する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67倍のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - An Oracle for Guiding Large-Scale Model/Hybrid Parallel Training of
Convolutional Neural Networks [0.3653697742557465]
我々は畳み込みニューラルネットワーク(CNN)の計算・通信・メモリ要件を分析する。
私たちのモデル駆動分析は、異なる並列性アプローチの制限やボトルネックを大規模に検出するのに役立つ、オラクルユーティリティの基礎となります。
論文 参考訳(メタデータ) (2021-04-19T06:45:51Z) - Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。
RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。
RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文 参考訳(メタデータ) (2021-03-30T04:26:04Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。