論文の概要: The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism
- arxiv url: http://arxiv.org/abs/2007.12856v1
- Date: Sat, 25 Jul 2020 05:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:28:23.453084
- Title: The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism
- Title(参考訳): ディープラーニングにおける強化スケーリングの事例--ハイブリッド並列学習による大規模3次元CNNの訓練
- Authors: Yosuke Oyama, Naoya Maruyama, Nikoli Dryden, Erin McCarthy, Peter
Harrington, Jan Balewski, Satoshi Matsuoka, Peter Nugent, Brian Van Essen
- Abstract要約: 大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
- 参考スコア(独自算出の注目度): 3.4377970608678314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present scalable hybrid-parallel algorithms for training large-scale 3D
convolutional neural networks. Deep learning-based emerging scientific
workflows often require model training with large, high-dimensional samples,
which can make training much more costly and even infeasible due to excessive
memory usage. We solve these challenges by extensively applying hybrid
parallelism throughout the end-to-end training pipeline, including both
computations and I/O. Our hybrid-parallel algorithm extends the standard data
parallelism with spatial parallelism, which partitions a single sample in the
spatial domain, realizing strong scaling beyond the mini-batch dimension with a
larger aggregated memory capacity. We evaluate our proposed training algorithms
with two challenging 3D CNNs, CosmoFlow and 3D U-Net. Our comprehensive
performance studies show that good weak and strong scaling can be achieved for
both networks using up 2K GPUs. More importantly, we enable training of
CosmoFlow with much larger samples than previously possible, realizing an
order-of-magnitude improvement in prediction accuracy.
- Abstract(参考訳): 大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
深層学習に基づく新しい科学ワークフローでは、大規模で高次元のサンプルを用いたモデルトレーニングがしばしば必要となる。
我々は、計算とi/oの両方を含むエンドツーエンドのトレーニングパイプライン全体にハイブリッド並列性を適用することで、これらの課題を解決する。
我々のハイブリッド並列アルゴリズムは、空間領域に1つのサンプルを分割する空間並列性で標準的なデータ並列性を拡張し、メモリ容量がより大きいミニバッチ次元を超えて強力なスケーリングを実現する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
我々の総合的なパフォーマンス調査によると、2KのGPUを使用して両方のネットワークで優れた弱さと強力なスケーリングを実現することができる。
さらに,従来よりもはるかに大きなサンプルを用いたコスモフローのトレーニングを可能にし,予測精度の桁違いな改善を実現する。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - SciAI4Industry -- Solving PDEs for industry-scale problems with deep
learning [1.642765885524881]
ユーザによるHPCインフラストラクチャの管理を必要とせずに,クラウド上で並列にトレーニングデータをシミュレートする分散プログラミングAPIを導入する。
我々は3D Navier-Stokes方程式を解くために大規模ニューラルネットワークを訓練し、多孔質媒質中の3D CO2フローをシミュレーションする。
CO2の例では、商用の炭素捕獲・貯蔵(CCS)プロジェクトに基づくトレーニングデータセットをシミュレートし、従来の数値シミュレータよりも5桁高速で3200倍安い200万以上のセルを持つ3Dグリッド上で、CO2フローシミュレーションのためのニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2022-11-23T05:15:32Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Distributing Deep Learning Hyperparameter Tuning for 3D Medical Image
Segmentation [5.652813393326783]
3次元医用画像(MIS)の新たな技術に関するほとんどの研究は、現在、Deep LearningとGPUアクセラレータを使って行われている。
このような技術の主な課題は、単一の入力が計算資源に容易に対応でき、処理に不当な時間を要することである。
本稿では,マルチノードおよびマルチGPU環境に着目した分散ディープラーニングトレーニングパイプラインの設計を提案する。
論文 参考訳(メタデータ) (2021-10-29T16:11:25Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。