論文の概要: Swing: Short-cutting Rings for Higher Bandwidth Allreduce
- arxiv url: http://arxiv.org/abs/2401.09356v2
- Date: Mon, 4 Mar 2024 22:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:47:50.323306
- Title: Swing: Short-cutting Rings for Higher Bandwidth Allreduce
- Title(参考訳): スウィング:より高帯域対応のショートカットリング
- Authors: Daniele De Sensi and Tommaso Bonato and David Saam and Torsten Hoefler
- Abstract要約: トーラスネットワークは機械学習ワークロードに最適化されたシステムで広く利用されている。
Swingは、トーラス方向の切り替えによって通信ノード間の低距離を維持するアルゴリズムである。
Swingは32Bから128MiBまでのベクトルに対する最大3倍のアレーダアルゴリズムで性能が向上する。
- 参考スコア(独自算出の注目度): 20.665164653484087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The allreduce collective operation accounts for a significant fraction of the
runtime of workloads running on distributed systems. One factor determining its
performance is the distance between communicating nodes, especially on networks
like torus, where a higher distance implies multiple messages being forwarded
on the same link, thus reducing the allreduce bandwidth. Torus networks are
widely used on systems optimized for machine learning workloads (e.g., Google
TPUs and Amazon Trainium devices), as well as on some of the Top500
supercomputers. To improve allreduce performance on torus networks we introduce
Swing, a new algorithm that keeps a low distance between communicating nodes by
swinging between torus directions. Our analysis and experimental evaluation
show that Swing outperforms by up to 3x existing allreduce algorithms for
vectors ranging from 32B to 128MiB, on different types of torus and torus-like
topologies, regardless of their shape and size.
- Abstract(参考訳): allreduceの集団運用は、分散システム上で動作するワークロードのランタイムのかなりの部分を占めている。
その性能を決定する要因の1つは、通信ノード間の距離であり、特にトーラスのようなネットワークでは、高い距離は同一リンク上で複数のメッセージが転送されることを意味する。
トーラスネットワークは機械学習ワークロード(Google TPUやAmazon Trainiumデバイスなど)に最適化されたシステムや、Top500スーパーコンピュータで広く利用されている。
トーラスネットワーク上でのアレーダ性能を改善するために,トーラス方向を切り替えることで通信ノード間距離を低く抑える新しいアルゴリズムSwingを導入する。
解析および実験により,swingは32bから128mibまでのベクトルに対する最大3倍のallreduceアルゴリズムで,その形状や大きさに関わらず,トーラスやトーラスのような位相に勝ることを示した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Bandwidth Optimal Pipeline Schedule for Collective Communication [6.341156131901433]
我々は,任意のネットワークトポロジ上で,帯域幅の最適な全ゲザ/リデューサ・スキャッタを生成するために,強ゲザ時間アルゴリズムを提案する。
パイプラインは、与えられたトポロジ上で最高の帯域幅を達成するスケジュールを構築する。
論文 参考訳(メタデータ) (2023-05-29T07:04:56Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - Bandwidth-efficient distributed neural network architectures with
application to body sensor networks [73.02174868813475]
本稿では,分散ニューラルネットワークアーキテクチャを設計するための概念設計手法について述べる。
提案手法により,損失を最小限に抑えつつ,最大20倍の帯域幅削減が可能となることを示す。
本稿では,ウェアラブル脳-コンピュータインタフェースに焦点をあてるが,他のセンサネットワークアプリケーションにも適用できる。
論文 参考訳(メタデータ) (2022-10-14T12:35:32Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - DEFER: Distributed Edge Inference for Deep Neural Networks [5.672898304129217]
分散エッジ推論のためのフレームワークであるDEFERを提案する。
ディープニューラルネットワークを複数の計算ノードに分散可能なレイヤに分割する。
ResNet50モデルでは、8ノードのDEFERの推論スループットは53%高く、ノード当たりのエネルギー消費量は1デバイス当たりの推測よりも63%低いことがわかった。
論文 参考訳(メタデータ) (2022-01-18T06:50:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - ItNet: iterative neural networks with small graphs for accurate and
efficient anytime prediction [1.52292571922932]
本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。
CamVidおよびCityscapesデータセットでセマンティックセグメンテーションの最新の結果を示します。
論文 参考訳(メタデータ) (2021-01-21T15:56:29Z) - Pruning Convolutional Filters using Batch Bridgeout [14.677724755838556]
最先端のコンピュータビジョンモデルでは、トレーニングセットに適合するために必要なパラメータ数がはるかに多いため、能力が急速に向上している。
これにより最適化と一般化性能が向上する。
推論コストを削減するために、トレーニングされたニューラルネットワークの畳み込みフィルタを切断することで、推論中の実行時のメモリと計算要求を削減できる。
本稿では,ニューラルネットワークの性能低下を最小限に抑え,効率よく刈り取ることができるようにトレーニングするために,スパシティ誘導正規化スキームであるBatch Bridgeoutを提案する。
論文 参考訳(メタデータ) (2020-09-23T01:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。