論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- arxiv url: http://arxiv.org/abs/2304.05301v3
- Date: Wed, 02 Oct 2024 19:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:27:52.883145
- Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning
- Title(参考訳): TACOS: 分散機械学習のためのトポロジ対応集合アルゴリズム合成装置
- Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Swati Gupta, Tushar Krishna,
- Abstract要約: 本稿では,トポロジ対応集団アルゴリズムを自動生成する自律合成器TACOSを提案する。
TACOSは非常に柔軟で、不均一な128-NPUシステムのAll-Reduceアルゴリズムを1.08秒で合成する。
最先端の合成装置よりも4.27倍の性能向上を実現している。
- 参考スコア(独自算出の注目度): 9.196825913937472
- License:
- Abstract: The surge of artificial intelligence, particularly large language models, has driven the rapid development of large-scale machine learning clusters. Executing distributed models on these clusters is often constrained by communication overhead, making efficient utilization of available network resources crucial. As a result, the routing algorithm employed for collective communications (i.e., collective algorithms) plays a pivotal role in determining overall performance. Unfortunately, existing collective communication libraries for distributed machine learning are limited by a fixed set of basic collective algorithms. This limitation hinders communication optimization, especially in modern clusters with heterogeneous and asymmetric topologies. Furthermore, manually designing collective algorithms for all possible combinations of network topologies and collective patterns requires heavy engineering and validation efforts. To address these challenges, this paper presents TACOS, an autonomous synthesizer capable of automatically generating topology-aware collective algorithms tailored to specific collective patterns and network topologies. TACOS is highly flexible, synthesizing an All-Reduce algorithm for a heterogeneous 128-NPU system in just 1.08 seconds, while achieving up to a 4.27x performance improvement over state-of-the-art synthesizers. Additionally, TACOS demonstrates better scalability with polynomial synthesis times, in contrast to NP-hard approaches which only scale to systems with tens of NPUs. TACOS can synthesize for 40K NPUs in just 2.52 hours.
- Abstract(参考訳): 人工知能の急増、特に大きな言語モデルにより、大規模な機械学習クラスタが急速に開発されるようになった。
これらのクラスタ上での分散モデルの実行は通信オーバーヘッドによって制約されることが多く、利用可能なネットワークリソースの効率的な利用が不可欠である。
結果として、集合通信に使用されるルーティングアルゴリズム(すなわち、集合的アルゴリズム)は、全体的な性能を決定する上で重要な役割を果たす。
残念ながら、分散機械学習のための既存の集合通信ライブラリは、基本的な集合アルゴリズムの固定セットによって制限されている。
この制限は通信最適化を妨げ、特に不均一および非対称な位相を持つ現代のクラスタにおいてである。
さらに、ネットワークトポロジと集合パターンの可能なすべての組み合わせに対して、手動で集合アルゴリズムを設計するには、高度なエンジニアリングと検証の努力が必要である。
これらの課題に対処するために,本論文では,特定の集合パターンやネットワークトポロジに適合したトポロジ対応の集合アルゴリズムを自動生成可能な自律合成器であるTACOSを提案する。
TACOSは非常に柔軟で、異種18-NPUシステムのAll-Reduceアルゴリズムをわずか1.08秒で合成し、最先端の合成装置よりも4.27倍の性能向上を実現している。
さらに、TACOSは、数個のNPUを持つシステムにしかスケールしないNPハードアプローチとは対照的に、多項式合成時間でのスケーラビリティの向上を示す。
TACOSはわずか2.52時間で40KのNPUを合成できる。
関連論文リスト
- NAR-*ICP: Neural Execution of Classical ICP-based Pointcloud Registration Algorithms [7.542220697870245]
本研究ではニューラルネットワークと古典ロボットアルゴリズムの交点をニューラルネットワーク推論フレームワークを用いて検討する。
我々は従来のICPベースのポイントクラウド登録アルゴリズムの中間アルゴリズムステップを学習するグラフニューラルネットワーク(GNN)ベースの学習フレームワークであるNAR-*ICPを提案する。
我々は、実世界から合成まで多様なデータセットにまたがってアプローチを評価し、複雑でノイズの多い入力を扱う際の柔軟性を実証した。
論文 参考訳(メタデータ) (2024-10-14T19:33:46Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Faster Adaptive Momentum-Based Federated Methods for Distributed
Composition Optimization [14.579475552088692]
非分散合成問題の解法として,高速なフェデレート合成最適化アルゴリズム(MFCGDとAdaMFCGD)を提案する。
特に、我々の適応アルゴリズム(AdaMFCGD)は、様々な適応学習率を柔軟に組み込むために統一適応行列を使用する。
論文 参考訳(メタデータ) (2022-11-03T15:17:04Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Time-Correlated Sparsification for Efficient Over-the-Air Model
Aggregation in Wireless Federated Learning [23.05003652536773]
Federated Edge Learning(FEEL)は、エッジインテリジェンスアプリケーションを駆動するための有望な分散機械学習(ML)フレームワークである。
通信効率の高いFEELのためのハイブリッドアグリゲーション(TCS-H)を用いた時間相関スペーシングを提案する。
論文 参考訳(メタデータ) (2022-02-17T02:48:07Z) - Efficient Direct-Connect Topologies for Collective Communications [2.9394897655215555]
ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Self-organizing Democratized Learning: Towards Large-scale Distributed
Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。
本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。
提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-07T08:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。