論文の概要: Caramel: Accelerating Decentralized Distributed Deep Learning with
Computation Scheduling
- arxiv url: http://arxiv.org/abs/2004.14020v1
- Date: Wed, 29 Apr 2020 08:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:47:11.989570
- Title: Caramel: Accelerating Decentralized Distributed Deep Learning with
Computation Scheduling
- Title(参考訳): Caramel: 計算スケジューリングによる分散分散ディープラーニングの高速化
- Authors: Sayed Hadi Hashemi, Sangeetha Abdu Jyothi, Brighten Godfrey, Roy
Campbell
- Abstract要約: Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。
Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
- 参考スコア(独自算出の注目度): 1.5785002371773138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The method of choice for parameter aggregation in Deep Neural Network (DNN)
training, a network-intensive task, is shifting from the Parameter Server model
to decentralized aggregation schemes (AllReduce) inspired by theoretical
guarantees of better performance. However, current implementations of AllReduce
overlook the interdependence of communication and computation, resulting in
significant performance degradation. In this paper, we develop Caramel, a
system that accelerates decentralized distributed deep learning through
model-aware computation scheduling and communication optimizations for
AllReduce. Caramel achieves this goal through (a) computation DAG scheduling
that expands the feasible window of transfer for each parameter (transfer
boundaries), and (b) network optimizations for smoothening of the load
including adaptive batching and pipelining of parameter transfers. Caramel
maintains the correctness of the dataflow model, is hardware-independent, and
does not require any user-level or framework-level changes. We implement
Caramel over TensorFlow and show that the iteration time of DNN training can be
improved by up to 3.62x in a cloud environment.
- Abstract(参考訳): ネットワーク集約型タスクであるdeep neural network(dnn)トレーニングにおけるパラメータアグリゲーションの選択方法は、より優れたパフォーマンスの理論的保証にインスパイアされたパラメータサーバモデルから分散アグリゲーションスキーム(allreduce)に移行する。
しかし、AllReduceの現在の実装は、通信と計算の相互依存性を見落とし、性能が大幅に低下する。
本稿では,AllReduceのモデル対応計算スケジューリングと通信最適化により分散分散ディープラーニングを高速化するシステムであるCaramelを開発する。
キャラメルはこの目標を達成する
(a)各パラメータ(転送境界)の転送可能なウィンドウを拡張する計算DAGスケジューリング、及び
b) 適応的バッチ化やパラメータ転送のパイプライン化を含む負荷の平滑化のためのネットワーク最適化を行う。
Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を必要としない。
TensorFlow上でCaramelを実装し、クラウド環境でのDNNトレーニングのイテレーション時間が最大3.62倍改善可能であることを示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - A Distributed Data-Parallel PyTorch Implementation of the Distributed
Shampoo Optimizer for Training Neural Networks At-Scale [5.206015354543744]
Shampooは、ニューラルネットワークをトレーニングするためのAdaGradファミリーに属するオンラインおよび最適化アルゴリズムである。
我々は、PyTorchのディープネットワークを大規模にトレーニングするために実装したアルゴリズムと性能最適化の完全な記述を提供する。
論文 参考訳(メタデータ) (2023-09-12T18:11:10Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - Transformer Network-based Reinforcement Learning Method for Power
Distribution Network (PDN) Optimization of High Bandwidth Memory (HBM) [4.829921419076774]
高帯域メモリ(HBM)の電力分散ネットワーク(PDN)最適化のための変圧器ネットワークに基づく強化学習(RL)手法を提案する。
提案手法は,複数のポートで見られるPDN自己転送の低減を最大化するために,最適なデカップリングコンデンサ(デキャップ)設計を提供する。
論文 参考訳(メタデータ) (2022-03-29T16:27:54Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。