Fugu-MT 論文翻訳(概要): Learned Gradient Compression for Distributed Deep Learning

論文の概要: Learned Gradient Compression for Distributed Deep Learning

arxiv url: http://arxiv.org/abs/2103.08870v1
Date: Tue, 16 Mar 2021 06:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 13:35:17.089930
Title: Learned Gradient Compression for Distributed Deep Learning
Title（参考訳）: 分散ディープラーニングのための学習勾配圧縮
Authors: Lusine Abrahamyan, Yiming Chen, Giannis Bekoulis and Nikos Deligiannis
Abstract要約: 高次元データを含む大規模なデータセットでディープニューラルネットワークをトレーニングするには、大量の計算が必要です。この問題の解決策は、データ並列分散トレーニングであり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスできる。しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。
参考スコア（独自算出の注目度）: 16.892546958602303
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Training deep neural networks on large datasets containing high-dimensional data requires a large amount of computation. A solution to this problem is data-parallel distributed training, where a model is replicated into several computational nodes that have access to different chunks of the data. This approach, however, entails high communication rates and latency because of the computed gradients that need to be shared among nodes at every iteration. The problem becomes more pronounced in the case that there is wireless communication between the nodes (i.e. due to the limited network bandwidth). To address this problem, various compression methods have been proposed including sparsification, quantization, and entropy encoding of the gradients. Existing methods leverage the intra-node information redundancy, that is, they compress gradients at each node independently. In contrast, we advocate that the gradients across the nodes are correlated and propose methods to leverage this inter-node redundancy to improve compression efficiency. Depending on the node communication protocol (parameter server or ring-allreduce), we propose two instances of the LGC approach that we coin Learned Gradient Compression (LGC). Our methods exploit an autoencoder (i.e. trained during the first stages of the distributed training) to capture the common information that exists in the gradients of the distributed nodes. We have tested our LGC methods on the image classification and semantic segmentation tasks using different convolutional neural networks (ResNet50, ResNet101, PSPNet) and multiple datasets (ImageNet, Cifar10, CamVid). The ResNet101 model trained for image classification on Cifar10 achieved an accuracy of 93.57%, which is lower than the baseline distributed training with uncompressed gradients only by 0.18%.
Abstract（参考訳）: 高次元データを含む大規模データセット上でディープニューラルネットワークをトレーニングするには、大量の計算が必要である。この問題の解決策はデータ並列分散トレーニング(Data-parallel Distributed Training)であり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスする。しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。この問題は、ノード間の無線通信がある場合(すなわち)、より顕著になる。ネットワーク帯域幅が限られているため) この問題に対処するために、勾配のスパース化、量子化、エントロピー符号化など様々な圧縮法が提案されている。既存の方法はノード内の情報冗長性、すなわち各ノードの勾配を独立に圧縮する。対照的に,ノード間の勾配は相関しており,このノード間冗長性を利用して圧縮効率を向上させる手法を提案する。ノード通信プロトコル(パラメータサーバまたはring-allreduce)により、我々は学習勾配圧縮(lgc)を考案したlgcアプローチの2つのインスタンスを提案する。我々のメソッドはオートエンコーダ(つまり)を利用する。分散トレーニングの最初の段階でトレーニングされた)分散ノードの勾配に存在する共通情報をキャプチャする。我々は,様々な畳み込みニューラルネットワーク(resnet50,resnet101,pspnet)と複数のデータセット(imagenet,cifar10,camvid)を用いて,画像分類と意味セグメンテーションタスクに関するlgc手法をテストした。 cifar10の画像分類のためにトレーニングされたresnet101モデルは、精度93.57%に達し、非圧縮勾配のベースライン分散トレーニングよりも0.18%低い。

関連論文リスト

Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-02T02:19:22Z)
CDFGNN: a Systematic Design of Cache-based Distributed Full-Batch Graph Neural Network Training with Communication Reduction [7.048300785744331]
グラフニューラルネットワークトレーニングは、主にミニバッチとフルバッチのトレーニング方法に分類される。分散クラスタでは、機能とグラデーションの頻繁なリモートアクセスが、通信オーバーヘッドを大きくします。キャッシュベースの分散フルバッチグラフニューラルネットワークトレーニングフレームワーク(CDFGNN)を紹介する。本結果は,CDFGNNが分散フルバッチGNNトレーニングタスクを高速化する大きな可能性を示唆している。
論文参考訳（メタデータ） (2024-08-01T01:57:09Z)
Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文参考訳（メタデータ） (2024-06-25T14:57:38Z)
Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。 DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文参考訳（メタデータ） (2023-08-21T07:24:29Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文参考訳（メタデータ） (2021-09-26T05:16:12Z)
An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。 SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文参考訳（メタデータ） (2021-01-26T13:06:00Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
PowerGossip: Practical Low-Rank Communication Compression in Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文参考訳（メタデータ） (2020-08-04T09:14:52Z)
Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文参考訳（メタデータ） (2020-06-17T19:00:31Z)
Cross-filter compression for CNN inference acceleration [4.324080238456531]
畳み込み処理において,$sim32times$メモリと$122times$メモリを節約できる新しいクロスフィルタ圧縮法を提案する。 CIFAR-10 と ImageNet のデータセットを用いて,Binary-Weight と XNOR-Net を別々に評価した。
論文参考訳（メタデータ） (2020-05-18T19:06:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。