論文の概要: BAGUA: Scaling up Distributed Learning with System Relaxations
- arxiv url: http://arxiv.org/abs/2107.01499v2
- Date: Tue, 6 Jul 2021 08:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:43:59.158072
- Title: BAGUA: Scaling up Distributed Learning with System Relaxations
- Title(参考訳): BAGUA: システムの緩和による分散学習のスケールアップ
- Authors: Shaoduo Gan, Xiangru Lian, Rui Wang, Jianbin Chang, Chengjun Liu,
Hongmei Shi, Shengzhuo Zhang, Xianghong Li, Tengxu Sun, Jiawei Jiang, Binhang
Yuan, Sen Yang, Ji Liu, Ce Zhang
- Abstract要約: BAGUAは分散データ並列トレーニングのための新しい通信フレームワークである。
新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。
最大16台のマシンを持つ運用クラスタでは、BAGUAは、エンドツーエンドのトレーニング時間において、PyTorch-DDP、Horovod、BytePSを上回ります。
- 参考スコア(独自算出の注目度): 31.500494636704598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent years have witnessed a growing list of systems for distributed
data-parallel training. Existing systems largely fit into two paradigms, i.e.,
parameter server and MPI-style collective operations. On the algorithmic side,
researchers have proposed a wide range of techniques to lower the communication
via system relaxations: quantization, decentralization, and communication
delay. However, most, if not all, existing systems only rely on standard
synchronous and asynchronous stochastic gradient (SG) based optimization,
therefore, cannot take advantage of all possible optimizations that the machine
learning community has been developing recently. Given this emerging gap
between the current landscapes of systems and theory, we build BAGUA, a
communication framework whose design goal is to provide a system abstraction
that is both flexible and modular to support state-of-the-art system relaxation
techniques of distributed training. Powered by the new system design, BAGUA has
a great ability to implement and extend various state-of-the-art distributed
learning algorithms. In a production cluster with up to 16 machines (128 GPUs),
BAGUA can outperform PyTorch-DDP, Horovod and BytePS in the end-to-end training
time by a significant margin (up to 1.95 times) across a diverse range of
tasks. Moreover, we conduct a rigorous tradeoff exploration showing that
different algorithms and system relaxations achieve the best performance over
different network conditions.
- Abstract(参考訳): 近年、分散データ並列トレーニングのためのシステムのリストが増えている。
既存のシステムはパラメータサーバとMPIスタイルの集合演算という2つのパラダイムに大きく適合する。
アルゴリズムの面では、量子化、分散化、通信遅延といった、システム緩和による通信の低減のための幅広い技術が研究者によって提案されている。
しかし、すべてではないにしても、既存のシステムは標準の同期および非同期確率勾配(SG)ベースの最適化にのみ依存しているため、機械学習コミュニティが最近開発してきたすべての最適化を活用できない。
システムと理論の現況の新たなギャップを考えると、分散トレーニングの最先端システム緩和技術をサポートするために、フレキシブルかつモジュール化されたシステム抽象化を提供することを設計目標とする通信フレームワークであるBAGUAを構築します。
新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。
最大16台のマシン(128GPU)を持つプロダクションクラスタでは、BAGUAはPyTorch-DDP、Horovod、BytePSを、さまざまなタスクでかなりの差(最大1.95倍)でエンドツーエンドのトレーニング時間で上回ることができる。
さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を達成することを示す厳密なトレードオフ探索を行う。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。
本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。
本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T06:17:40Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Applications of Deep Learning to the Design of Enhanced Wireless
Communication Systems [0.0]
ディープラーニング(DL)ベースのシステムは、抽出可能なモデルが存在しないような、ますます複雑なタスクを処理できる。
この論文は、物理層におけるDLの潜在能力を解き放つための様々なアプローチを比較することを目的としている。
論文 参考訳(メタデータ) (2022-05-02T21:02:14Z) - FLoBC: A Decentralized Blockchain-Based Federated Learning Framework [0.0]
本研究では,ブロックチェーン技術を用いた汎用分散型フェデレーション学習システムを構築するためのソリューションを実証する。
本稿では,訓練者と検証者という2つの分散型アクターからなるシステム設計について,信頼性と効率性を確保するための方法論について述べる。
最後に,FLoBCを実験用サンドボックスとして利用し,システム全体の性能に対するトレーナー対バリケータ比,報酬対ペナルティポリシ,モデル同期スキームの効果を比較比較・比較する。
論文 参考訳(メタデータ) (2021-12-22T13:36:49Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。