論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- arxiv url: http://arxiv.org/abs/2304.05301v2
- Date: Fri, 29 Mar 2024 17:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:56:17.095058
- Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- Title(参考訳): TACOS: 分散機械学習のためのトポロジ対応集合アルゴリズム合成装置
- Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg, Samvit Kaul, Swati Gupta, Tushar Krishna,
- Abstract要約: 本稿では,共通分散機械学習集団のためのトポロジ対応集合アルゴリズムを自動合成するTACOSを紹介する。
TACOSは、異質な512-NPUシステムのAll-Reduceアルゴリズムをわずか6.09分で合成し、最先端の作業よりも4.27倍の性能向上を実現した。
- 参考スコア(独自算出の注目度): 8.361593737010573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge of artificial intelligence, specifically large language models, has led to a rapid advent towards the development of large-scale machine learning training clusters. Collective communications within these clusters tend to be heavily bandwidth-bound, necessitating techniques to optimally utilize the available network bandwidth. This puts the routing algorithm for the collective at the forefront of determining the performance. Unfortunately, communication libraries used in distributed machine learning today are limited by a fixed set of routing algorithms. This constraints collective performance within the domain of next-generation training clusters that employ intricate, heterogeneous, and asymmetric, large-scale topologies. Further, the emergence of irregular topologies attributed to runtime phenomena such as device failures serves to compound the complexity of the challenge. To this end, this paper introduces TACOS, an automated synthesizer that generates topology-aware collective algorithms for common distributed machine learning collectives across arbitrary input network topologies. TACOS was able to synthesize All-Reduce algorithm for a heterogeneous 512-NPU system in just 6.09 minutes while achieving performance improvement up to 4.27x over state-of-the-art prior work. TACOS exhibits high scalability, with synthesis time scaling quadratically with the number of NPUs. In contrast to prior works' NP-hard approaches, TACOS with 40K NPUs completes in 2.52 hours.
- Abstract(参考訳): 人工知能(特に大きな言語モデル)の急増は、大規模な機械学習トレーニングクラスタの開発に急激な進展をもたらした。
これらのクラスタ内の集団通信は帯域幅に大きく依存する傾向にあり、利用可能なネットワーク帯域幅を最適に活用する技術が必要である。
これにより、集合に対するルーティングアルゴリズムは、パフォーマンスを決定する最前線に置かれる。
残念ながら、今日の分散機械学習で使われている通信ライブラリは、固定されたルーティングアルゴリズムによって制限されている。
これは、複雑で不均一で非対称で大規模なトポロジーを利用する次世代トレーニングクラスタの領域内での集合的パフォーマンスを制約する。
さらに、デバイス障害などの実行時の現象に起因する不規則なトポロジの出現は、課題の複雑さを複雑化するのに役立つ。
そこで本稿では,任意の入力ネットワークトポロジにまたがる共通分散機械学習集合のためのトポロジ対応集合アルゴリズムを自動合成するTACOSを紹介する。
TACOSは、異質な512-NPUシステムのAll-Reduceアルゴリズムをわずか6.09分で合成し、最先端の作業よりも4.27倍の性能向上を実現した。
TACOSは高いスケーラビリティを示し、合成時間はNPUの数に比例する。
従来のNPハードアプローチとは対照的に、40K NPUのTACOSは2.52時間で完了する。
関連論文リスト
- Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight
Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。
本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。
本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文 参考訳(メタデータ) (2022-10-29T15:09:34Z) - Implementing Reinforcement Learning Datacenter Congestion Control in
NVIDIA NICs [62.557323506605236]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。