論文の概要: ForestColl: Efficient Collective Communications on Heterogeneous Network Fabrics
- arxiv url: http://arxiv.org/abs/2402.06787v2
- Date: Sat, 21 Sep 2024 05:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 04:54:55.569983
- Title: ForestColl: Efficient Collective Communications on Heterogeneous Network Fabrics
- Title(参考訳): ForestColl: 異種ネットワークファブリック上での効率的な集合的コミュニケーション
- Authors: Liangyu Zhao, Saeed Maleki, Aashaka Shah, Ziyue Yang, Hossein Pourreza, Arvind Krishnamurthy,
- Abstract要約: 我々は,任意のネットワークトポロジのパフォーマンススケジュールを生成するツールであるForestCollを紹介する。
ForestCollは、スイッチングファブリックとダイレクト接続の両方を含む、ネットワークファブリックをサポートする。
ForestCollのスケジュールは、ベンダーが最適化した通信ライブラリと比較して最大130%高いパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 3.9988815183633113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As modern DNN models grow ever larger, collective communications between the accelerators (allreduce, etc.) emerge as a significant performance bottleneck. Designing efficient communication schedules is challenging, given today's highly diverse and heterogeneous network fabrics. In this paper, we present ForestColl, a tool that generates performant schedules for any network topology. ForestColl constructs broadcast/aggregation spanning trees as the communication schedule, achieving theoretically optimal throughput. Its schedule generation runs in strongly polynomial time and is highly scalable. ForestColl supports any network fabric, including both switching fabrics and direct connections. We evaluated ForestColl on multi-box AMD MI250 and NVIDIA DGX A100 platforms. ForestColl's schedules delivered up to 130% higher performance compared to the vendors' own optimized communication libraries, RCCL and NCCL, and achieved a 20% speedup in LLM training. ForestColl also outperforms other state-of-the-art schedule generation techniques with both up to 61% more efficient generated schedules and orders of magnitude faster schedule generation speed.
- Abstract(参考訳): 現代のDNNモデルがさらに大きくなるにつれて、アクセラレータ(Allreduceなど)間の集団通信が重要なパフォーマンスボトルネックとして現れます。
今日の高度に多様性があり異質なネットワークファブリックを考えると、効率的な通信スケジュールの設計は困難である。
本稿では,ネットワークトポロジの動作スケジュールを生成するツールであるフォレストコールについて述べる。
ForestCollは、木にまたがるブロードキャスト/アグリゲーションを通信スケジュールとして構築し、理論的に最適なスループットを達成する。
そのスケジュール生成は強い多項式時間で実行され、非常にスケーラブルである。
ForestCollは、スイッチングファブリックとダイレクト接続の両方を含む、ネットワークファブリックをサポートする。
マルチボックスAMD MI250およびNVIDIA DGX A100プラットフォーム上でのフォレストコールの評価を行った。
ForestCollのスケジュールは、ベンダーの最適化された通信ライブラリであるRCCLとNCCLと比べて最大130%高いパフォーマンスを提供し、LLMトレーニングでは20%のスピードアップを達成した。
ForestCollは、他の最先端のスケジュール生成技術よりも、最大で61%効率良く生成されたスケジュールと、桁違いに高速なスケジュール生成速度を達成している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Bandwidth Optimal Pipeline Schedule for Collective Communication [6.341156131901433]
我々は,任意のネットワークトポロジ上で,帯域幅の最適な全ゲザ/リデューサ・スキャッタを生成するために,強ゲザ時間アルゴリズムを提案する。
パイプラインは、与えられたトポロジ上で最高の帯域幅を達成するスケジュールを構築する。
論文 参考訳(メタデータ) (2023-05-29T07:04:56Z) - Efficient Direct-Connect Topologies for Collective Communications [2.9394897655215555]
ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models [2.6599014990168834]
分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
論文 参考訳(メタデータ) (2021-10-09T06:50:04Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Cloud Collectives: Towards Cloud-aware Collectives forML Workloads with
Rank Reordering [8.81194405760133]
Cloud Collectivesは、参加するフレームワークの並べ替えによって集合を加速するプロトタイプである。
Collectivesは非侵襲的であり、コードの変更も既存のアプリケーションの再構築も必要とせず、クラウドプロバイダのサポートなしで動作します。
パブリッククラウドでのアレーダ操作に対するCloud Collectivesの予備的な応用は、複数のマイクロベンチマークで最大3.7倍、実際のワークロードで1.3倍のスピードアップをもたらす。
論文 参考訳(メタデータ) (2021-05-28T20:14:38Z) - DynaComm: Accelerating Distributed CNN Training between Edges and Clouds
through Dynamic Communication Scheduling [11.34309642431225]
本稿では,各送信手順を複数のセグメントに分割し,実行時に重複する最適な通信と計算を実現する新しいスケジューラDynaCommを提案する。
DynaComm は、モデル精度を保ちながら、競合する戦略と比較して、すべてのケースで最適なスケジューリングを実現できることを確認します。
論文 参考訳(メタデータ) (2021-01-20T05:09:41Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。