Fugu-MT 論文翻訳(概要): Caramel: Accelerating Decentralized Distributed Deep Learning with Computation Scheduling

論文の概要: Caramel: Accelerating Decentralized Distributed Deep Learning with Computation Scheduling

arxiv url: http://arxiv.org/abs/2004.14020v1
Date: Wed, 29 Apr 2020 08:32:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 14:47:11.989570
Title: Caramel: Accelerating Decentralized Distributed Deep Learning with Computation Scheduling
Title（参考訳）: Caramel: 計算スケジューリングによる分散分散ディープラーニングの高速化
Authors: Sayed Hadi Hashemi, Sangeetha Abdu Jyothi, Brighten Godfrey, Roy Campbell
Abstract要約: Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。 Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
参考スコア（独自算出の注目度）: 1.5785002371773138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The method of choice for parameter aggregation in Deep Neural Network (DNN) training, a network-intensive task, is shifting from the Parameter Server model to decentralized aggregation schemes (AllReduce) inspired by theoretical guarantees of better performance. However, current implementations of AllReduce overlook the interdependence of communication and computation, resulting in significant performance degradation. In this paper, we develop Caramel, a system that accelerates decentralized distributed deep learning through model-aware computation scheduling and communication optimizations for AllReduce. Caramel achieves this goal through (a) computation DAG scheduling that expands the feasible window of transfer for each parameter (transfer boundaries), and (b) network optimizations for smoothening of the load including adaptive batching and pipelining of parameter transfers. Caramel maintains the correctness of the dataflow model, is hardware-independent, and does not require any user-level or framework-level changes. We implement Caramel over TensorFlow and show that the iteration time of DNN training can be improved by up to 3.62x in a cloud environment.
Abstract（参考訳）: ネットワーク集約型タスクであるdeep neural network(dnn)トレーニングにおけるパラメータアグリゲーションの選択方法は、より優れたパフォーマンスの理論的保証にインスパイアされたパラメータサーバモデルから分散アグリゲーションスキーム(allreduce)に移行する。しかし、AllReduceの現在の実装は、通信と計算の相互依存性を見落とし、性能が大幅に低下する。本稿では,AllReduceのモデル対応計算スケジューリングと通信最適化により分散分散ディープラーニングを高速化するシステムであるCaramelを開発する。キャラメルはこの目標を達成する (a)各パラメータ(転送境界)の転送可能なウィンドウを拡張する計算DAGスケジューリング、及び b) 適応的バッチ化やパラメータ転送のパイプライン化を含む負荷の平滑化のためのネットワーク最適化を行う。 Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を必要としない。 TensorFlow上でCaramelを実装し、クラウド環境でのDNNトレーニングのイテレーション時間が最大3.62倍改善可能であることを示す。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文参考訳（メタデータ） (2024-01-03T13:07:07Z)
A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale [5.206015354543744]
Shampooは、ニューラルネットワークをトレーニングするためのAdaGradファミリーに属するオンラインおよび最適化アルゴリズムである。我々は、PyTorchのディープネットワークを大規模にトレーニングするために実装したアルゴリズムと性能最適化の完全な記述を提供する。
論文参考訳（メタデータ） (2023-09-12T18:11:10Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
Transformer Network-based Reinforcement Learning Method for Power Distribution Network (PDN) Optimization of High Bandwidth Memory (HBM) [4.829921419076774]
高帯域メモリ(HBM)の電力分散ネットワーク(PDN)最適化のための変圧器ネットワークに基づく強化学習(RL)手法を提案する。提案手法は,複数のポートで見られるPDN自己転送の低減を最大化するために,最適なデカップリングコンデンサ(デキャップ)設計を提供する。
論文参考訳（メタデータ） (2022-03-29T16:27:54Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Accelerating Neural Network Training with Distributed Asynchronous and Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。 DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。 DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文参考訳（メタデータ） (2021-04-12T16:02:20Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。