Fugu-MT 論文翻訳(概要): TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Training

論文の概要: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Training

arxiv url: http://arxiv.org/abs/2304.05301v1
Date: Tue, 11 Apr 2023 15:50:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 14:15:47.707858
Title: TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Training
Title（参考訳）: tacos: 分散学習のためのトポロジー対応集合アルゴリズムシンセサイザ
Authors: William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg, Swati Gupta, Tushar Krishna
Abstract要約: 任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。 TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。
参考スコア（独自算出の注目度）: 7.40258269990031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Collective communications are an indispensable part of distributed training. Running a topology-aware collective algorithm is crucial for optimizing communication performance by minimizing congestion. Today such algorithms only exist for a small set of simple topologies, limiting the topologies employed in training clusters and handling irregular topologies due to network failures. In this paper, we propose TACOS, an automated topology-aware collective synthesizer for arbitrary input network topologies. TACOS synthesized 3.73x faster All-Reduce algorithm over baselines, and synthesized collective algorithms for 512-NPU system in just 6.1 minutes.
Abstract（参考訳）: 集団コミュニケーションは分散トレーニングにおいて不可欠である。トポロジを意識した集団的アルゴリズムの実行は,混雑を最小限に抑える通信性能の最適化に不可欠である。今日では、そのようなアルゴリズムは単純なトポロジの小さなセットにのみ存在し、クラスタのトレーニングに使用されるトポロジを制限し、ネットワーク障害による不規則なトポロジを処理する。本稿では,任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。 TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。

関連論文リスト

Traffic Engineering in Large-scale Networks with Generalizable Graph Neural Networks [19.36374721098885]
TELGENは、大規模なネットワークにおいてTE問題を効率的に解くことを学習する新しいTEアルゴリズムである。最大5000ノード、106リンクのランダムおよび実世界のネットワーク上でTELGENを訓練し評価した。
論文参考訳（メタデータ） (2025-03-31T15:21:22Z)
NAR-*ICP: Neural Execution of Classical ICP-based Pointcloud Registration Algorithms [7.542220697870245]
本研究ではニューラルネットワークと古典ロボットアルゴリズムの交点をニューラルネットワーク推論フレームワークを用いて検討する。我々は従来のICPベースのポイントクラウド登録アルゴリズムの中間アルゴリズムステップを学習するグラフニューラルネットワーク(GNN)ベースの学習フレームワークであるNAR-*ICPを提案する。我々は、実世界から合成まで多様なデータセットにまたがってアプローチを評価し、複雑でノイズの多い入力を扱う際の柔軟性を実証した。
論文参考訳（メタデータ） (2024-10-14T19:33:46Z)
CORE: Common Random Reconstruction for Distributed Optimization with Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文参考訳（メタデータ） (2023-09-23T08:45:27Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
Faster Adaptive Momentum-Based Federated Methods for Distributed Composition Optimization [14.579475552088692]
非分散合成問題の解法として,高速なフェデレート合成最適化アルゴリズム(MFCGDとAdaMFCGD)を提案する。特に、我々の適応アルゴリズム(AdaMFCGD)は、様々な適応学習率を柔軟に組み込むために統一適応行列を使用する。
論文参考訳（メタデータ） (2022-11-03T15:17:04Z)
FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文参考訳（メタデータ） (2022-04-22T21:57:00Z)
Time-Correlated Sparsification for Efficient Over-the-Air Model Aggregation in Wireless Federated Learning [23.05003652536773]
Federated Edge Learning(FEEL)は、エッジインテリジェンスアプリケーションを駆動するための有望な分散機械学習(ML)フレームワークである。通信効率の高いFEELのためのハイブリッドアグリゲーション(TCS-H)を用いた時間相関スペーシングを提案する。
論文参考訳（メタデータ） (2022-02-17T02:48:07Z)
Efficient Direct-Connect Topologies for Collective Communications [2.9394897655215555]
ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
論文参考訳（メタデータ） (2022-02-07T16:59:05Z)
Synthesizing Collective Communication Algorithms for Heterogeneous Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。 TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。 TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文参考訳（メタデータ） (2021-11-08T23:20:52Z)
Clustered Federated Learning via Generalized Total Variation Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文参考訳（メタデータ） (2021-05-26T18:07:19Z)
A Low Complexity Decentralized Neural Net with Centralized Equivalence using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-29T13:08:12Z)
Self-organizing Democratized Learning: Towards Large-scale Distributed Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文参考訳（メタデータ） (2020-07-07T08:34:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。