論文の概要: Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices
- arxiv url: http://arxiv.org/abs/2401.01728v2
- Date: Thu, 23 May 2024 08:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:46:15.490258
- Title: Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices
- Title(参考訳): Ravnest: 異種デバイス上での分散非同期トレーニング
- Authors: Anirudh Rajiv Menon, Unnikrishnan Menon, Kailash Ahirwar,
- Abstract要約: Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning models, growing larger and more complex, have demonstrated exceptional generalization and accuracy due to training on huge datasets. This trend is expected to continue. However, the increasing size of these models poses challenges in training, as traditional centralized methods are limited by memory constraints at such scales. This paper proposes an asynchronous decentralized training paradigm for large modern deep learning models that harnesses the compute power of regular heterogeneous PCs with limited resources connected across the internet to achieve favourable performance metrics. Ravnest facilitates decentralized training by efficiently organizing compute nodes into clusters with similar data transfer rates and compute capabilities, without necessitating that each node hosts the entire model. These clusters engage in $\textit{Zero-Bubble Asynchronous Model Parallel}$ training, and a $\textit{Parallel Multi-Ring All-Reduce}$ method is employed to effectively execute global parameter averaging across all clusters. We have framed our asynchronous SGD loss function as a block structured optimization problem with delayed updates and derived an optimal convergence rate of $O\left(\frac{1}{\sqrt{K}}\right)$. We further discuss linear speedup with respect to the number of participating clusters and the bound on the staleness parameter.
- Abstract(参考訳): より大きく複雑に成長する現代のディープラーニングモデルは、巨大なデータセットのトレーニングによって、例外的な一般化と精度を実証している。
この傾向は続くと予想されている。
しかしながら、これらのモデルのサイズが大きくなると、従来の集中型メソッドはそのようなスケールでのメモリ制約によって制限されるため、トレーニングの課題が生じる。
本稿では,インターネット上のリソースが限られている常用異種PCの計算能力を利用して,高性能な性能指標を実現することを目的とした,大規模ディープラーニングモデルのための非同期分散学習パラダイムを提案する。
Ravnestは、各ノードがモデル全体をホストすることを必要とせず、同じデータ転送率と計算能力を持つクラスタに効率的に計算ノードを配置することで、分散トレーニングを促進する。
これらのクラスタは、$\textit{Zero-Bubble Asynchronous Model Parallel}$トレーニングに従事し、$\textit{Parallel Multi-Ring All-Reduce}$メソッドを使用して、すべてのクラスタにわたるグローバルパラメータ平均化を効果的に実行する。
遅延更新を伴うブロック構造最適化問題として非同期SGD損失関数をフレーム化して,最適な収束率を$O\left(\frac{1}{\sqrt{K}}\right)$とする。
さらに、参加クラスタの数と安定度パラメータのバウンダリについて、線形スピードアップについて論じる。
関連論文リスト
- Federated K-Means Clustering via Dual Decomposition-based Distributed
Optimization [0.0]
本稿では,$Kのクラスタリング問題に対する分散トレーニングに双対分解を適用する方法について述べる。
トレーニングは、異なるノードにデータを分割し、コンセンサス制約を通じてこれらのノードをリンクすることで、分散的に行うことができる。
論文 参考訳(メタデータ) (2023-07-25T05:34:50Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - DBS: Dynamic Batch Size For Distributed Deep Neural Network Training [19.766163856388694]
ディープニューラルネットワーク(DNN)の分散学習のための動的バッチサイズ(DBS)戦略を提案する。
具体的には、前のエポックの事実に基づいて各ワーカーのパフォーマンスを第一に評価し、バッチサイズとデータセット分割を動的に調整する。
実験結果から,提案手法はクラスタの性能を十分に活用し,トレーニング時間を短縮し,無関係なタスクによる障害に強いロバスト性を有することを示す。
論文 参考訳(メタデータ) (2020-07-23T07:31:55Z) - Caramel: Accelerating Decentralized Distributed Deep Learning with
Computation Scheduling [1.5785002371773138]
Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。
Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
論文 参考訳(メタデータ) (2020-04-29T08:32:33Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。