論文の概要: Exploring Multi-dimensional Hierarchical Network Topologies for
Efficient Distributed Training of Trillion Parameter DL Models
- arxiv url: http://arxiv.org/abs/2109.11762v1
- Date: Fri, 24 Sep 2021 06:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:02:53.480924
- Title: Exploring Multi-dimensional Hierarchical Network Topologies for
Efficient Distributed Training of Trillion Parameter DL Models
- Title(参考訳): 数兆パラメータdlモデルの効率的な分散トレーニングのための多次元階層ネットワークトポロジの探索
- Authors: William Won, Saeed Rashidi, Sudarshan Srinivasan, Tushar Krishna
- Abstract要約: 高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用する必要がある。
本稿では、トレーニングプラットフォームにおいて、より中間的なネットワーク次元を追加することが、高価なNICリソースの過剰使用を効果的に軽減する上で有益であるという事実を動機づける。
- 参考スコア(独自算出の注目度): 2.695466667982714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks have gained significant attraction due to their wide
applicability in different domains. DNN sizes and training samples are
constantly growing, making training of such workloads more challenging.
Distributed training is a solution to reduce the training time.
High-performance distributed training platforms should leverage
multi-dimensional hierarchical networks, which interconnect accelerators
through different levels of the network, to dramatically reduce expensive NICs
required for the scale-out network. However, it comes at the expense of
communication overhead between distributed accelerators to exchange gradients
or input/output activation. In order to allow for further scaling of the
workloads, communication overhead needs to be minimized. In this paper, we
motivate the fact that in training platforms, adding more intermediate network
dimensions is beneficial for efficiently mitigating the excessive use of
expensive NIC resources. Further, we address different challenges of the DNN
training on hierarchical networks. We discuss when designing the interconnect,
how to distribute network bandwidth resources across different dimensions in
order to (i) maximize BW utilization of all dimensions, and (ii) minimizing the
overall training time for the target workload. We then implement a framework
that, for a given workload, determines the best network configuration that
maximizes performance, or performance-per-cost.
- Abstract(参考訳): ディープニューラルネットワークは、異なるドメインで適用可能なため、大きな注目を集めている。
DNNのサイズとトレーニングサンプルは絶えず増加しており、そのようなワークロードのトレーニングをより困難にしている。
分散トレーニングは、トレーニング時間を短縮するためのソリューションです。
高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用して、スケールアウトネットワークに必要な高価なNICを劇的に削減する必要がある。
しかし、勾配や入出力アクティベーションを交換する分散アクセラレータ間の通信オーバーヘッドを犠牲にしている。
ワークロードのさらなるスケーリングを可能にするためには、通信オーバーヘッドを最小限にする必要がある。
本稿では,トレーニングプラットフォームにおいて,高コストnicリソースの過剰使用を効果的に緩和するために,中間ネットワーク次元の追加が有効であることを動機づける。
さらに,階層ネットワークにおけるDNNトレーニングの課題にも対処する。
我々は、相互接続の設計時、ネットワーク帯域幅のリソースを異なる次元に分散する方法について議論する。
(i)全次元のbw利用を最大化すること、及び
(ii)目標作業負荷の総合訓練時間を最小化する。
そして、あるワークロードに対して、パフォーマンスやコスト当たりのパフォーマンスを最大化する最適なネットワーク構成を決定するフレームワークを実装します。
関連論文リスト
- A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models [2.6599014990168834]
分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
論文 参考訳(メタデータ) (2021-10-09T06:50:04Z) - Semi-supervised Network Embedding with Differentiable Deep Quantisation [81.49184987430333]
我々はネットワーク埋め込みのための微分可能な量子化法であるd-SNEQを開発した。
d-SNEQは、学習された量子化符号にリッチな高次情報を与えるためにランク損失を組み込む。
トレーニング済みの埋め込みのサイズを大幅に圧縮できるため、ストレージのフットプリントが減少し、検索速度が向上する。
論文 参考訳(メタデータ) (2021-08-20T11:53:05Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文 参考訳(メタデータ) (2020-06-17T19:00:31Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。