論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed
Training
- arxiv url: http://arxiv.org/abs/2304.05301v1
- Date: Tue, 11 Apr 2023 15:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 14:15:47.707858
- Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed
Training
- Title(参考訳): tacos: 分散学習のためのトポロジー対応集合アルゴリズムシンセサイザ
- Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg,
Swati Gupta, Tushar Krishna
- Abstract要約: 任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。
TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。
- 参考スコア(独自算出の注目度): 7.40258269990031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collective communications are an indispensable part of distributed training.
Running a topology-aware collective algorithm is crucial for optimizing
communication performance by minimizing congestion. Today such algorithms only
exist for a small set of simple topologies, limiting the topologies employed in
training clusters and handling irregular topologies due to network failures. In
this paper, we propose TACOS, an automated topology-aware collective
synthesizer for arbitrary input network topologies. TACOS synthesized 3.73x
faster All-Reduce algorithm over baselines, and synthesized collective
algorithms for 512-NPU system in just 6.1 minutes.
- Abstract(参考訳): 集団コミュニケーションは分散トレーニングにおいて不可欠である。
トポロジを意識した集団的アルゴリズムの実行は,混雑を最小限に抑える通信性能の最適化に不可欠である。
今日では、そのようなアルゴリズムは単純なトポロジの小さなセットにのみ存在し、クラスタのトレーニングに使用されるトポロジを制限し、ネットワーク障害による不規則なトポロジを処理する。
本稿では,任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。
TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。
関連論文リスト
- Federated Learning with a Sampling Algorithm under Isoperimetry [9.990687944474738]
フェデレーション学習は、機械学習アルゴリズムのトレーニングを複数のデバイスに効率的に分散するために、一連のテクニックを使用する。
本稿では,Langevinvin のサンプル Aafteri の通信効率のよい変種を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:19:03Z) - Efficient Direct-Connect Topologies for Collective Communications [3.06609419571106]
集合通信における効率的なネットワークトポロジの蒸留の問題点を考察する。
レイテンシと帯域幅のトレードオフに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - DESTRESS: Computation-Optimal and Communication-Efficient Decentralized
Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。
非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。
詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文 参考訳(メタデータ) (2021-10-04T03:17:41Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Progressive Spatio-Temporal Graph Convolutional Network for
Skeleton-Based Human Action Recognition [97.14064057840089]
本稿では,グラフ畳み込みネットワークのためのコンパクトで問題固有のネットワークを,段階的に自動的に見つける手法を提案する。
骨格に基づく人体行動認識のための2つのデータセットの実験結果から,提案手法は競争力あるいはより優れた分類性能を有することが示された。
論文 参考訳(メタデータ) (2020-11-11T09:57:49Z) - Distributed Optimization, Averaging via ADMM, and Network Topology [0.0]
センサローカライゼーションの現実問題において,ネットワークトポロジと異なるアルゴリズムの収束率の関係について検討する。
また、ADMMと持ち上げマルコフ連鎖の間の興味深い関係を示すとともに、その収束を明示的に特徴づける。
論文 参考訳(メタデータ) (2020-09-05T21:44:39Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。