論文の概要: Distributed Deep Learning Using Volunteer Computing-Like Paradigm
- arxiv url: http://arxiv.org/abs/2103.08894v1
- Date: Tue, 16 Mar 2021 07:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:34:45.383787
- Title: Distributed Deep Learning Using Volunteer Computing-Like Paradigm
- Title(参考訳): ボランティア型パラダイムを用いた分散ディープラーニング
- Authors: Medha Atre and Birendra Jha and Ashwini Rao
- Abstract要約: 多数のパラメータおよび/または大規模なデータセットを備えたディープラーニングモデルをトレーニングすることは禁止されます。
現在のソリューションは、主にクラスタコンピューティングシステム向けに構築されているが、それでも問題となる可能性がある。
我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。
- 参考スコア(独自算出の注目度): 0.09668407688201358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Use of Deep Learning (DL) in commercial applications such as image
classification, sentiment analysis and speech recognition is increasing. When
training DL models with large number of parameters and/or large datasets, cost
and speed of training can become prohibitive. Distributed DL training solutions
that split a training job into subtasks and execute them over multiple nodes
can decrease training time. However, the cost of current solutions, built
predominantly for cluster computing systems, can still be an issue. In contrast
to cluster computing systems, Volunteer Computing (VC) systems can lower the
cost of computing, but applications running on VC systems have to handle fault
tolerance, variable network latency and heterogeneity of compute nodes, and the
current solutions are not designed to do so. We design a distributed solution
that can run DL training on a VC system by using a data parallel approach. We
implement a novel asynchronous SGD scheme called VC-ASGD suited for VC systems.
In contrast to traditional VC systems that lower cost by using untrustworthy
volunteer devices, we lower cost by leveraging preemptible computing instances
on commercial cloud platforms. By using preemptible instances that require
applications to be fault tolerant, we lower cost by 70-90% and improve data
security.
- Abstract(参考訳): 画像分類,感情分析,音声認識などの商用応用におけるディープラーニング(DL)の利用が増加している。
多数のパラメータと/または大きなデータセットでDLモデルをトレーニングする場合、トレーニングのコストとスピードは禁じられる可能性がある。
トレーニングジョブをサブタスクに分割して複数のノード上で実行する分散DLトレーニングソリューションは、トレーニング時間を短縮することができる。
しかし、クラスタコンピューティングシステム向けに主に構築された現在のソリューションのコストは依然として問題となる可能性がある。
クラスタコンピューティングシステムとは対照的に、Volunteer Computing(VC)システムはコンピューティングのコストを下げることができるが、VCシステム上で動作するアプリケーションは、フォールトトレランス、可変ネットワークレイテンシ、計算ノードの不均一性を扱う必要があり、現在のソリューションはそうするように設計されていない。
我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。
本稿では,VCシステムに適した非同期SGD方式VC-ASGDを提案する。
信頼できないボランティアデバイスを使用することでコストを下げる従来のVCシステムとは対照的に、商用クラウドプラットフォーム上でプリエンプティブルコンピューティングインスタンスを活用することでコストを下げる。
アプリケーションにフォールトトレラントを要求するプリエンプティブルなインスタンスを使用することで、コストを70~90%削減し、データセキュリティを改善します。
関連論文リスト
- Exploring the Impact of Serverless Computing on Peer To Peer Training
Machine Learning [0.3441021278275805]
分散トレーニングのためのサーバーレスコンピューティングとP2Pネットワークを組み合わせた新しいアーキテクチャを導入する。
その結果,従来のP2P分散学習法と比較して97.34%の改善がみられた。
コストタイムのトレードオフにもかかわらず、サーバーレスのアプローチは依然として有望である。
論文 参考訳(メタデータ) (2023-09-25T13:51:07Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Analysis of Distributed Deep Learning in the Cloud [17.91202259637393]
本研究では,分散ディープラーニング(DDL)プロファイラを導入し,パブリッククラウド上で実行中のDDLが抱えるさまざまな実行"ストール"を判定する。
通信ストールとネットワークストールの2種類の通信ストールを推定する。
プロファイラを使用して一般的なDNNモデルをトレーニングして、さまざまなAWS GPUインスタンスを特徴付け、ユーザが情報的な決定を下す上でのメリットと欠点をリストアップします。
論文 参考訳(メタデータ) (2022-08-30T15:42:36Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed
Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。
提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。
非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2021-02-10T19:41:11Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - Machine Learning on Volatile Instances [40.19551148721116]
この研究は、(プリエンプションの結果)アクティブワーカーノード数の変動がSGD収束とモデルをトレーニングする時間にどのように影響するかを定量化した最初のものである。
我々は,標準的なインスタンスよりも安価な揮発性クラウドインスタンスを利用するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2020-03-12T07:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。