論文の概要: ForestColl: Efficient Collective Communications on Heterogeneous Network
Fabrics
- arxiv url: http://arxiv.org/abs/2402.06787v1
- Date: Fri, 9 Feb 2024 21:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:36:53.196552
- Title: ForestColl: Efficient Collective Communications on Heterogeneous Network
Fabrics
- Title(参考訳): ForestColl: 異種ネットワークファブリック上での効率的な集合的コミュニケーション
- Authors: Liangyu Zhao and Saeed Maleki and Ziyue Yang and Hossein Pourreza and
Aashaka Shah and Changho Hwang and Arvind Krishnamurthy
- Abstract要約: ネットワークトポロジの効率的なスケジュールを生成するツールであるフォレストコールを提案する。
ForestCollは、スイッチングファブリックとダイレクト接続の両方を含むネットワークファブリックと、ネットワークグラフ構造をサポートする。
ForestCollのスケジュールは、ベンダーが最適化した通信ライブラリと比較して最大52%高いパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 4.828705274534519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As modern DNN models grow ever larger, collective communications between the
accelerators (allreduce, etc.) emerge as a significant performance bottleneck.
Designing efficient communication schedules is challenging given today's highly
diverse and heterogeneous network fabrics. In this paper, we present
ForestColl, a tool that generates efficient schedules for any network topology.
ForestColl constructs broadcast/aggregation spanning trees as the communication
schedule, achieving theoretically minimum network congestion. Its schedule
generation runs in strongly polynomial time and is highly scalable. ForestColl
supports any network fabrics, including both switching fabrics and direct
connections, as well as any network graph structure. We evaluated ForestColl on
multi-cluster AMD MI250 and NVIDIA A100 platforms. ForestColl's schedules
achieved up to 52\% higher performance compared to the vendors' own optimized
communication libraries, RCCL and NCCL. ForestColl also outperforms other
state-of-the-art schedule generation techniques with both up to 61\% more
efficient generated schedules and orders of magnitude faster schedule
generation speed.
- Abstract(参考訳): 現代のDNNモデルがさらに大きくなるにつれて、アクセラレータ(Allreduceなど)間の集団通信が重要なパフォーマンスボトルネックとして現れます。
今日の高度に多種多様なネットワークファブリックを考えると、効率的な通信スケジュールの設計は困難である。
本稿では,ネットワークトポロジの効率的なスケジュールを生成するツールであるフォレストコールを提案する。
ForestCollは通信スケジュールとして木にまたがるブロードキャスト/アグリゲーションを構築し、理論的には最小限のネットワーク混雑を実現する。
そのスケジュール生成は強い多項式時間で実行され、非常にスケーラブルである。
ForestCollは、スイッチングファブリックとダイレクト接続の両方を含むネットワークファブリックと、ネットワークグラフ構造をサポートする。
マルチクラスタAMD MI250およびNVIDIA A100プラットフォーム上でフォレストコールを評価した。
ForestCollのスケジュールは、ベンダーが最適化した通信ライブラリであるRCCLとNCCLと比較して最大52倍のパフォーマンスを達成した。
ForestCollは、他の最先端のスケジュール生成技術よりも、最大61倍の効率で生成されたスケジュールと、桁違いに高速なスケジュール生成速度でパフォーマンスを向上する。
関連論文リスト
- Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Network Alignment with Transferable Graph Autoencoders [87.28177782039265]
本稿では,強力で堅牢なノード埋め込みを抽出するグラフオートエンコーダアーキテクチャを提案する。
生成した埋め込みがグラフの固有値と固有ベクトルと結びついていることを証明する。
提案フレームワークは転送学習とデータ拡張を利用して,大規模なネットワークアライメントを実現する。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Bandwidth Optimal Pipeline Schedule for Collective Communication [6.341156131901433]
我々は,任意のネットワークトポロジ上で,帯域幅の最適な全ゲザ/リデューサ・スキャッタを生成するために,強ゲザ時間アルゴリズムを提案する。
パイプラインは、与えられたトポロジ上で最高の帯域幅を達成するスケジュールを構築する。
論文 参考訳(メタデータ) (2023-05-29T07:04:56Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Bandit Sampling for Multiplex Networks [8.771092194928674]
多数のレイヤを持つ多重ネットワーク上でのスケーラブルな学習アルゴリズムを提案する。
オンライン学習アルゴリズムは、トレーニング中に関連する情報を持つレイヤのみを集約するように、関連する隣のレイヤをサンプリングする方法を学ぶ。
合成シナリオと実世界のシナリオの両方に関する実験結果を示す。
論文 参考訳(メタデータ) (2022-02-08T03:26:34Z) - Efficient Direct-Connect Topologies for Collective Communications [3.06609419571106]
集合通信における効率的なネットワークトポロジの蒸留の問題点を考察する。
レイテンシと帯域幅のトレードオフに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models [2.6599014990168834]
分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
論文 参考訳(メタデータ) (2021-10-09T06:50:04Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Learning to Branch for Multi-Task Learning [12.49373126819798]
ネットワーク内の共有や分岐の場所を学習するマルチタスク学習アルゴリズムを提案する。
本稿では,木分岐操作をガムベル・ソフトマックスサンプリング手法として用いる新しい木構造設計空間を提案する。
論文 参考訳(メタデータ) (2020-06-02T19:23:21Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。