論文の概要: Benchmarking network fabrics for data distributed training of deep
neural networks
- arxiv url: http://arxiv.org/abs/2008.08057v1
- Date: Tue, 18 Aug 2020 17:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:32:47.089396
- Title: Benchmarking network fabrics for data distributed training of deep
neural networks
- Title(参考訳): ディープニューラルネットワークのデータ分散トレーニングのためのベンチマークネットワークファブリック
- Authors: Siddharth Samsi, Andrew Prout, Michael Jones, Andrew Kirby, Bill
Arcand, Bill Bergeron, David Bestor, Chansup Byun, Vijay Gadepally, Michael
Houle, Matthew Hubbell, Anna Klein, Peter Michaleas, Lauren Milechin, Julie
Mullen, Antonio Rosa, Charles Yee, Albert Reuther, Jeremy Kepner
- Abstract要約: 深層モデルの訓練のための大規模な計算要求は、より高速な訓練のための新しい方法の開発を必要としている。
このようなアプローチのひとつに、トレーニングデータを複数の計算ノードに分散する、データ並列アプローチがある。
本稿では,物理ハードウェアの相互接続とネットワーク関連ソフトウェアプリミティブを用いてデータ分散ディープラーニングを実現する効果について検討する。
- 参考スコア(独自算出の注目度): 10.067102343753643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence/Machine Learning applications require the training of
complex models on large amounts of labelled data. The large computational
requirements for training deep models have necessitated the development of new
methods for faster training. One such approach is the data parallel approach,
where the training data is distributed across multiple compute nodes. This
approach is simple to implement and supported by most of the commonly used
machine learning frameworks. The data parallel approach leverages MPI for
communicating gradients across all nodes. In this paper, we examine the effects
of using different physical hardware interconnects and network-related software
primitives for enabling data distributed deep learning. We compare the effect
of using GPUDirect and NCCL on Ethernet and OmniPath fabrics. Our results show
that using Ethernet-based networking in shared HPC systems does not have a
significant effect on the training times for commonly used deep neural network
architectures or traditional HPC applications such as Computational Fluid
Dynamics.
- Abstract(参考訳): 人工知能/機械学習アプリケーションは、大量のラベル付きデータで複雑なモデルのトレーニングを必要とする。
深層モデルのトレーニングに対する大きな計算要件は、より高速なトレーニングのための新しい方法の開発を必要とした。
このようなアプローチのひとつに、トレーニングデータを複数の計算ノードに分散する、データ並列アプローチがある。
このアプローチは、一般的なマシンラーニングフレームワークの多くで実装とサポートが簡単です。
データ並列アプローチは、すべてのノード間の通信勾配にMPIを利用する。
本稿では,異なる物理ハードウェア相互接続とネットワーク関連ソフトウェアプリミティブを用いたデータ分散型ディープラーニングの効果について検討する。
我々は、GPUDirectとNCCLがイーサネットとOmniPathファブリックに与える影響を比較した。
その結果、共有HPCシステムにおけるイーサネットベースのネットワークの利用は、一般的に使われているディープニューラルネットワークアーキテクチャや計算流体力学のような従来のHPCアプリケーションのトレーニング時間に大きく影響しないことがわかった。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Parallel Machine Learning for Forecasting the Dynamics of Complex
Networks [0.0]
本稿では,大規模複雑ネットワークの力学を予測するための機械学習手法を提案する。
私たちは、関心のネットワークのトポロジを模倣する並列アーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-08-27T06:06:41Z) - ItNet: iterative neural networks with small graphs for accurate and
efficient anytime prediction [1.52292571922932]
本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。
CamVidおよびCityscapesデータセットでセマンティックセグメンテーションの最新の結果を示します。
論文 参考訳(メタデータ) (2021-01-21T15:56:29Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。