論文の概要: An Oracle for Guiding Large-Scale Model/Hybrid Parallel Training of
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2104.09075v1
- Date: Mon, 19 Apr 2021 06:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 02:10:55.071303
- Title: An Oracle for Guiding Large-Scale Model/Hybrid Parallel Training of
Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークの大規模モデル/ハイブリッド並列学習のためのOracle
- Authors: Albert Njoroge Kahira, Truong Thao Nguyen, Leonardo Bautista Gomez,
Ryousei Takano, Rosa M Badia, Mohamed Wahib
- Abstract要約: 我々は畳み込みニューラルネットワーク(CNN)の計算・通信・メモリ要件を分析する。
私たちのモデル駆動分析は、異なる並列性アプローチの制限やボトルネックを大規模に検出するのに役立つ、オラクルユーティリティの基礎となります。
- 参考スコア(独自算出の注目度): 0.3653697742557465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Network (DNN) frameworks use distributed training to enable
faster time to convergence and alleviate memory capacity limitations when
training large models and/or using high dimension inputs. With the steady
increase in datasets and model sizes, model/hybrid parallelism is deemed to
have an important role in the future of distributed training of DNNs. We
analyze the compute, communication, and memory requirements of Convolutional
Neural Networks (CNNs) to understand the trade-offs between different
parallelism approaches on performance and scalability. We leverage our
model-driven analysis to be the basis for an oracle utility which can help in
detecting the limitations and bottlenecks of different parallelism approaches
at scale. We evaluate the oracle on six parallelization strategies, with four
CNN models and multiple datasets (2D and 3D), on up to 1024 GPUs. The results
demonstrate that the oracle has an average accuracy of about 86.74% when
compared to empirical results, and as high as 97.57% for data parallelism.
- Abstract(参考訳): Deep Neural Network(DNN)フレームワークは、分散トレーニングを使用して、大規模モデルのトレーニングや高次元入力の使用時のメモリ容量制限の収束と緩和を可能にする。
データセットとモデルサイズが着実に増加する中で、モデル/ハイブリッド並列性はDNNの分散トレーニングの将来において重要な役割を果たすと考えられている。
我々は、コンボリューショナルニューラルネットワーク(CNN)の計算、通信、メモリ要件を分析し、パフォーマンスとスケーラビリティに関する異なる並列性アプローチ間のトレードオフを理解する。
私たちは、モデル駆動分析をoracleユーティリティの基盤として活用し、大規模で異なる並列処理アプローチの制限とボトルネックの検出に役立てます。
我々は、最大1024GPUで4つのCNNモデルと複数のデータセット(2Dと3D)を用いて、6つの並列化戦略のオラクルを評価する。
その結果、オラクルは経験的な結果と比較して平均86.74%の正確さがあり、データ並列性は97.57%であることがわかった。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - AgEBO-Tabular: Joint Neural Architecture and Hyperparameter Search with
Autotuned Data-Parallel Training for Tabular Data [11.552769149674544]
大規模データセットに対する高性能な予測モデルの開発は難しい課題である。
最近の自動機械学習(AutoML)は、予測モデル開発を自動化するための有望なアプローチとして現れている。
我々は,老化進化(AgE)とニューラルアーキテクチャ空間を探索する並列NAS法を組み合わせたAgEBO-Tabularを開発した。
論文 参考訳(メタデータ) (2020-10-30T16:28:48Z) - A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。
深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。
本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文 参考訳(メタデータ) (2020-06-04T19:38:05Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。