論文の概要: Exploring Multi-dimensional Hierarchical Network Topologies for
Efficient Distributed Training of Trillion Parameter DL Models
- arxiv url: http://arxiv.org/abs/2109.11762v1
- Date: Fri, 24 Sep 2021 06:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:02:53.480924
- Title: Exploring Multi-dimensional Hierarchical Network Topologies for
Efficient Distributed Training of Trillion Parameter DL Models
- Title(参考訳): 数兆パラメータdlモデルの効率的な分散トレーニングのための多次元階層ネットワークトポロジの探索
- Authors: William Won, Saeed Rashidi, Sudarshan Srinivasan, Tushar Krishna
- Abstract要約: 高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用する必要がある。
本稿では、トレーニングプラットフォームにおいて、より中間的なネットワーク次元を追加することが、高価なNICリソースの過剰使用を効果的に軽減する上で有益であるという事実を動機づける。
- 参考スコア(独自算出の注目度): 2.695466667982714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks have gained significant attraction due to their wide
applicability in different domains. DNN sizes and training samples are
constantly growing, making training of such workloads more challenging.
Distributed training is a solution to reduce the training time.
High-performance distributed training platforms should leverage
multi-dimensional hierarchical networks, which interconnect accelerators
through different levels of the network, to dramatically reduce expensive NICs
required for the scale-out network. However, it comes at the expense of
communication overhead between distributed accelerators to exchange gradients
or input/output activation. In order to allow for further scaling of the
workloads, communication overhead needs to be minimized. In this paper, we
motivate the fact that in training platforms, adding more intermediate network
dimensions is beneficial for efficiently mitigating the excessive use of
expensive NIC resources. Further, we address different challenges of the DNN
training on hierarchical networks. We discuss when designing the interconnect,
how to distribute network bandwidth resources across different dimensions in
order to (i) maximize BW utilization of all dimensions, and (ii) minimizing the
overall training time for the target workload. We then implement a framework
that, for a given workload, determines the best network configuration that
maximizes performance, or performance-per-cost.
- Abstract(参考訳): ディープニューラルネットワークは、異なるドメインで適用可能なため、大きな注目を集めている。
DNNのサイズとトレーニングサンプルは絶えず増加しており、そのようなワークロードのトレーニングをより困難にしている。
分散トレーニングは、トレーニング時間を短縮するためのソリューションです。
高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用して、スケールアウトネットワークに必要な高価なNICを劇的に削減する必要がある。
しかし、勾配や入出力アクティベーションを交換する分散アクセラレータ間の通信オーバーヘッドを犠牲にしている。
ワークロードのさらなるスケーリングを可能にするためには、通信オーバーヘッドを最小限にする必要がある。
本稿では,トレーニングプラットフォームにおいて,高コストnicリソースの過剰使用を効果的に緩和するために,中間ネットワーク次元の追加が有効であることを動機づける。
さらに,階層ネットワークにおけるDNNトレーニングの課題にも対処する。
我々は、相互接続の設計時、ネットワーク帯域幅のリソースを異なる次元に分散する方法について議論する。
(i)全次元のbw利用を最大化すること、及び
(ii)目標作業負荷の総合訓練時間を最小化する。
そして、あるワークロードに対して、パフォーマンスやコスト当たりのパフォーマンスを最大化する最適なネットワーク構成を決定するフレームワークを実装します。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Energy-efficient Training of Distributed DNNs in the Mobile-edge-cloud
Continuum [18.247181241860538]
異種ノード群が協調して学習タスクを行うマルチ層ネットワークにおいて,分散機械学習に対処する。
本稿では,学習時間と品質要件を満たしつつ,エネルギー効率の高いMLモデルトレーニングを実現するRightTrainというソリューション概念を提案する。
評価の結果,RightTrainは最適値と密に一致し,50%以上の性能を達成できた。
論文 参考訳(メタデータ) (2022-02-23T08:35:41Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - On the Difficulty of Designing Processor Arrays for Deep Neural Networks [0.0]
カムーイ (Camuy) は、線形代数演算のための重み付き定常シストリックアレイの軽量モデルである。
本稿では,必要サイクル,データ移動コスト,およびシストリックアレイの利用率を推定する方法を説明するために,人気モデルの解析を行う。
論文 参考訳(メタデータ) (2020-06-24T19:24:08Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。