論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- arxiv url: http://arxiv.org/abs/2304.05301v3
- Date: Wed, 02 Oct 2024 19:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:27:52.883145
- Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- Title(参考訳): TACOS: 分散機械学習のためのトポロジ対応集合アルゴリズム合成装置
- Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Swati Gupta, Tushar Krishna,
- Abstract要約: 本稿では,トポロジ対応集団アルゴリズムを自動生成する自律合成器TACOSを提案する。
TACOSは非常に柔軟で、不均一な128-NPUシステムのAll-Reduceアルゴリズムを1.08秒で合成する。
最先端の合成装置よりも4.27倍の性能向上を実現している。
- 参考スコア(独自算出の注目度): 9.196825913937472
- License:
- Abstract: The surge of artificial intelligence, particularly large language models, has driven the rapid development of large-scale machine learning clusters. Executing distributed models on these clusters is often constrained by communication overhead, making efficient utilization of available network resources crucial. As a result, the routing algorithm employed for collective communications (i.e., collective algorithms) plays a pivotal role in determining overall performance. Unfortunately, existing collective communication libraries for distributed machine learning are limited by a fixed set of basic collective algorithms. This limitation hinders communication optimization, especially in modern clusters with heterogeneous and asymmetric topologies. Furthermore, manually designing collective algorithms for all possible combinations of network topologies and collective patterns requires heavy engineering and validation efforts. To address these challenges, this paper presents TACOS, an autonomous synthesizer capable of automatically generating topology-aware collective algorithms tailored to specific collective patterns and network topologies. TACOS is highly flexible, synthesizing an All-Reduce algorithm for a heterogeneous 128-NPU system in just 1.08 seconds, while achieving up to a 4.27x performance improvement over state-of-the-art synthesizers. Additionally, TACOS demonstrates better scalability with polynomial synthesis times, in contrast to NP-hard approaches which only scale to systems with tens of NPUs. TACOS can synthesize for 40K NPUs in just 2.52 hours.
- Abstract(参考訳): 人工知能の急増、特に大きな言語モデルにより、大規模な機械学習クラスタが急速に開発されるようになった。
これらのクラスタ上での分散モデルの実行は通信オーバーヘッドによって制約されることが多く、利用可能なネットワークリソースの効率的な利用が不可欠である。
結果として、集合通信に使用されるルーティングアルゴリズム(すなわち、集合的アルゴリズム)は、全体的な性能を決定する上で重要な役割を果たす。
残念ながら、分散機械学習のための既存の集合通信ライブラリは、基本的な集合アルゴリズムの固定セットによって制限されている。
この制限は通信最適化を妨げ、特に不均一および非対称な位相を持つ現代のクラスタにおいてである。
さらに、ネットワークトポロジと集合パターンの可能なすべての組み合わせに対して、手動で集合アルゴリズムを設計するには、高度なエンジニアリングと検証の努力が必要である。
これらの課題に対処するために,本論文では,特定の集合パターンやネットワークトポロジに適合したトポロジ対応の集合アルゴリズムを自動生成可能な自律合成器であるTACOSを提案する。
TACOSは非常に柔軟で、異種18-NPUシステムのAll-Reduceアルゴリズムをわずか1.08秒で合成し、最先端の合成装置よりも4.27倍の性能向上を実現している。
さらに、TACOSは、数個のNPUを持つシステムにしかスケールしないNPハードアプローチとは対照的に、多項式合成時間でのスケーラビリティの向上を示す。
TACOSはわずか2.52時間で40KのNPUを合成できる。
関連論文リスト
- Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight
Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。
本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。
本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文 参考訳(メタデータ) (2022-10-29T15:09:34Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。