論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- arxiv url: http://arxiv.org/abs/2304.05301v2
- Date: Fri, 29 Mar 2024 17:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:56:17.095058
- Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- Title(参考訳): TACOS: 分散機械学習のためのトポロジ対応集合アルゴリズム合成装置
- Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg, Samvit Kaul, Swati Gupta, Tushar Krishna,
- Abstract要約: 本稿では,共通分散機械学習集団のためのトポロジ対応集合アルゴリズムを自動合成するTACOSを紹介する。
TACOSは、異質な512-NPUシステムのAll-Reduceアルゴリズムをわずか6.09分で合成し、最先端の作業よりも4.27倍の性能向上を実現した。
- 参考スコア(独自算出の注目度): 8.361593737010573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge of artificial intelligence, specifically large language models, has led to a rapid advent towards the development of large-scale machine learning training clusters. Collective communications within these clusters tend to be heavily bandwidth-bound, necessitating techniques to optimally utilize the available network bandwidth. This puts the routing algorithm for the collective at the forefront of determining the performance. Unfortunately, communication libraries used in distributed machine learning today are limited by a fixed set of routing algorithms. This constraints collective performance within the domain of next-generation training clusters that employ intricate, heterogeneous, and asymmetric, large-scale topologies. Further, the emergence of irregular topologies attributed to runtime phenomena such as device failures serves to compound the complexity of the challenge. To this end, this paper introduces TACOS, an automated synthesizer that generates topology-aware collective algorithms for common distributed machine learning collectives across arbitrary input network topologies. TACOS was able to synthesize All-Reduce algorithm for a heterogeneous 512-NPU system in just 6.09 minutes while achieving performance improvement up to 4.27x over state-of-the-art prior work. TACOS exhibits high scalability, with synthesis time scaling quadratically with the number of NPUs. In contrast to prior works' NP-hard approaches, TACOS with 40K NPUs completes in 2.52 hours.
- Abstract(参考訳): 人工知能(特に大きな言語モデル)の急増は、大規模な機械学習トレーニングクラスタの開発に急激な進展をもたらした。
これらのクラスタ内の集団通信は帯域幅に大きく依存する傾向にあり、利用可能なネットワーク帯域幅を最適に活用する技術が必要である。
これにより、集合に対するルーティングアルゴリズムは、パフォーマンスを決定する最前線に置かれる。
残念ながら、今日の分散機械学習で使われている通信ライブラリは、固定されたルーティングアルゴリズムによって制限されている。
これは、複雑で不均一で非対称で大規模なトポロジーを利用する次世代トレーニングクラスタの領域内での集合的パフォーマンスを制約する。
さらに、デバイス障害などの実行時の現象に起因する不規則なトポロジの出現は、課題の複雑さを複雑化するのに役立つ。
そこで本稿では,任意の入力ネットワークトポロジにまたがる共通分散機械学習集合のためのトポロジ対応集合アルゴリズムを自動合成するTACOSを紹介する。
TACOSは、異質な512-NPUシステムのAll-Reduceアルゴリズムをわずか6.09分で合成し、最先端の作業よりも4.27倍の性能向上を実現した。
TACOSは高いスケーラビリティを示し、合成時間はNPUの数に比例する。
従来のNPハードアプローチとは対照的に、40K NPUのTACOSは2.52時間で完了する。
関連論文リスト
- NAR-*ICP: Neural Execution of Classical ICP-based Pointcloud Registration Algorithms [7.542220697870245]
本研究ではニューラルネットワークと古典ロボットアルゴリズムの交点をニューラルネットワーク推論フレームワークを用いて検討する。
我々は従来のICPベースのポイントクラウド登録アルゴリズムの中間アルゴリズムステップを学習するグラフニューラルネットワーク(GNN)ベースの学習フレームワークであるNAR-*ICPを提案する。
我々は、実世界から合成まで多様なデータセットにまたがってアプローチを評価し、複雑でノイズの多い入力を扱う際の柔軟性を実証した。
論文 参考訳(メタデータ) (2024-10-14T19:33:46Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Faster Adaptive Momentum-Based Federated Methods for Distributed
Composition Optimization [14.579475552088692]
非分散合成問題の解法として,高速なフェデレート合成最適化アルゴリズム(MFCGDとAdaMFCGD)を提案する。
特に、我々の適応アルゴリズム(AdaMFCGD)は、様々な適応学習率を柔軟に組み込むために統一適応行列を使用する。
論文 参考訳(メタデータ) (2022-11-03T15:17:04Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Time-Correlated Sparsification for Efficient Over-the-Air Model
Aggregation in Wireless Federated Learning [23.05003652536773]
Federated Edge Learning(FEEL)は、エッジインテリジェンスアプリケーションを駆動するための有望な分散機械学習(ML)フレームワークである。
通信効率の高いFEELのためのハイブリッドアグリゲーション(TCS-H)を用いた時間相関スペーシングを提案する。
論文 参考訳(メタデータ) (2022-02-17T02:48:07Z) - Efficient Direct-Connect Topologies for Collective Communications [2.9394897655215555]
ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Self-organizing Democratized Learning: Towards Large-scale Distributed
Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。
本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。
提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-07T08:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。