論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed
Training
- arxiv url: http://arxiv.org/abs/2304.05301v1
- Date: Tue, 11 Apr 2023 15:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 14:15:47.707858
- Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed
Training
- Title(参考訳): tacos: 分散学習のためのトポロジー対応集合アルゴリズムシンセサイザ
- Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg,
Swati Gupta, Tushar Krishna
- Abstract要約: 任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。
TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。
- 参考スコア(独自算出の注目度): 7.40258269990031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collective communications are an indispensable part of distributed training.
Running a topology-aware collective algorithm is crucial for optimizing
communication performance by minimizing congestion. Today such algorithms only
exist for a small set of simple topologies, limiting the topologies employed in
training clusters and handling irregular topologies due to network failures. In
this paper, we propose TACOS, an automated topology-aware collective
synthesizer for arbitrary input network topologies. TACOS synthesized 3.73x
faster All-Reduce algorithm over baselines, and synthesized collective
algorithms for 512-NPU system in just 6.1 minutes.
- Abstract(参考訳): 集団コミュニケーションは分散トレーニングにおいて不可欠である。
トポロジを意識した集団的アルゴリズムの実行は,混雑を最小限に抑える通信性能の最適化に不可欠である。
今日では、そのようなアルゴリズムは単純なトポロジの小さなセットにのみ存在し、クラスタのトレーニングに使用されるトポロジを制限し、ネットワーク障害による不規則なトポロジを処理する。
本稿では,任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。
TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。
関連論文リスト
- NAR-*ICP: Neural Execution of Classical ICP-based Pointcloud Registration Algorithms [7.542220697870245]
本研究ではニューラルネットワークと古典ロボットアルゴリズムの交点をニューラルネットワーク推論フレームワークを用いて検討する。
我々は従来のICPベースのポイントクラウド登録アルゴリズムの中間アルゴリズムステップを学習するグラフニューラルネットワーク(GNN)ベースの学習フレームワークであるNAR-*ICPを提案する。
我々は、実世界から合成まで多様なデータセットにまたがってアプローチを評価し、複雑でノイズの多い入力を扱う際の柔軟性を実証した。
論文 参考訳(メタデータ) (2024-10-14T19:33:46Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Faster Adaptive Momentum-Based Federated Methods for Distributed
Composition Optimization [14.579475552088692]
非分散合成問題の解法として,高速なフェデレート合成最適化アルゴリズム(MFCGDとAdaMFCGD)を提案する。
特に、我々の適応アルゴリズム(AdaMFCGD)は、様々な適応学習率を柔軟に組み込むために統一適応行列を使用する。
論文 参考訳(メタデータ) (2022-11-03T15:17:04Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Time-Correlated Sparsification for Efficient Over-the-Air Model
Aggregation in Wireless Federated Learning [23.05003652536773]
Federated Edge Learning(FEEL)は、エッジインテリジェンスアプリケーションを駆動するための有望な分散機械学習(ML)フレームワークである。
通信効率の高いFEELのためのハイブリッドアグリゲーション(TCS-H)を用いた時間相関スペーシングを提案する。
論文 参考訳(メタデータ) (2022-02-17T02:48:07Z) - Efficient Direct-Connect Topologies for Collective Communications [2.9394897655215555]
ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Self-organizing Democratized Learning: Towards Large-scale Distributed
Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。
本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。
提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-07T08:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。