Fugu-MT 論文翻訳(概要): Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices

論文の概要: Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices

arxiv url: http://arxiv.org/abs/2401.01728v2
Date: Thu, 23 May 2024 08:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 11:46:15.490258
Title: Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices
Title（参考訳）: Ravnest: 異種デバイス上での分散非同期トレーニング
Authors: Anirudh Rajiv Menon, Unnikrishnan Menon, Kailash Ahirwar,
Abstract要約: Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern deep learning models, growing larger and more complex, have demonstrated exceptional generalization and accuracy due to training on huge datasets. This trend is expected to continue. However, the increasing size of these models poses challenges in training, as traditional centralized methods are limited by memory constraints at such scales. This paper proposes an asynchronous decentralized training paradigm for large modern deep learning models that harnesses the compute power of regular heterogeneous PCs with limited resources connected across the internet to achieve favourable performance metrics. Ravnest facilitates decentralized training by efficiently organizing compute nodes into clusters with similar data transfer rates and compute capabilities, without necessitating that each node hosts the entire model. These clusters engage in $\textit{Zero-Bubble Asynchronous Model Parallel}$ training, and a $\textit{Parallel Multi-Ring All-Reduce}$ method is employed to effectively execute global parameter averaging across all clusters. We have framed our asynchronous SGD loss function as a block structured optimization problem with delayed updates and derived an optimal convergence rate of $O\left(\frac{1}{\sqrt{K}}\right)$. We further discuss linear speedup with respect to the number of participating clusters and the bound on the staleness parameter.
Abstract（参考訳）: より大きく複雑に成長する現代のディープラーニングモデルは、巨大なデータセットのトレーニングによって、例外的な一般化と精度を実証している。この傾向は続くと予想されている。しかしながら、これらのモデルのサイズが大きくなると、従来の集中型メソッドはそのようなスケールでのメモリ制約によって制限されるため、トレーニングの課題が生じる。本稿では,インターネット上のリソースが限られている常用異種PCの計算能力を利用して,高性能な性能指標を実現することを目的とした,大規模ディープラーニングモデルのための非同期分散学習パラダイムを提案する。 Ravnestは、各ノードがモデル全体をホストすることを必要とせず、同じデータ転送率と計算能力を持つクラスタに効率的に計算ノードを配置することで、分散トレーニングを促進する。これらのクラスタは、$\textit{Zero-Bubble Asynchronous Model Parallel}$トレーニングに従事し、$\textit{Parallel Multi-Ring All-Reduce}$メソッドを使用して、すべてのクラスタにわたるグローバルパラメータ平均化を効果的に実行する。遅延更新を伴うブロック構造最適化問題として非同期SGD損失関数をフレーム化して,最適な収束率を$O\left(\frac{1}{\sqrt{K}}\right)$とする。さらに、参加クラスタの数と安定度パラメータのバウンダリについて、線形スピードアップについて論じる。

関連論文リスト

NoLoCo: No-all-reduce Low Communication Training Method for Large Models [0.310688583550805]
大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。 NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
論文参考訳（メタデータ） (2025-06-12T17:23:23Z)
From promise to practice: realizing high-performance decentralized training [8.955918346078935]
ディープニューラルネットワークの分散トレーニングは、All-Reduceのような同期データ並列メソッドよりも理論的に優れたスケーラビリティのために大きな注目を集めている。本稿では、All-Reduceトレーニングのスピードアップにつながる3つの重要な要因を特定し、いつ、どのように、どの程度の分散化によって、より短い実行時間が得られるかを決定するランタイムモデルを構築する。
論文参考訳（メタデータ） (2024-10-15T19:04:56Z)
Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。 FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文参考訳（メタデータ） (2024-05-31T16:34:11Z)
Federated K-Means Clustering via Dual Decomposition-based Distributed Optimization [0.0]
本稿では,$Kのクラスタリング問題に対する分散トレーニングに双対分解を適用する方法について述べる。トレーニングは、異なるノードにデータを分割し、コンセンサス制約を通じてこれらのノードをリンクすることで、分散的に行うことができる。
論文参考訳（メタデータ） (2023-07-25T05:34:50Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Simplifying Distributed Neural Network Training on Massive Graphs: Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文参考訳（メタデータ） (2023-05-17T01:49:44Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Accelerating Neural Network Training with Distributed Asynchronous and Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。 DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。 DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文参考訳（メタデータ） (2021-04-12T16:02:20Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。