論文の概要: L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and
Accurate Deep Learning
- arxiv url: http://arxiv.org/abs/2210.17357v2
- Date: Fri, 9 Jun 2023 17:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 18:04:50.750835
- Title: L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and
Accurate Deep Learning
- Title(参考訳): l-greco:効率良く正確なディープラーニングのための層適応勾配圧縮
- Authors: Mohammadreza Alimohammadi, Ilia Markov, Elias Frantar, Dan Alistarh
- Abstract要約: トレーニング中にモデルの層をまたいだ圧縮の度合いを動的に適用するためのフレームワークを提供する。
我々のフレームワークはL-GreCoと呼ばれ、モデル層に対する最適圧縮パラメータを自動的に選択する適応アルゴリズムに基づいている。
- 参考スコア(独自算出の注目度): 24.712888488317816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-parallel distributed training of deep neural networks (DNN) has gained
very widespread adoption, but can still experience communication bottlenecks.
To address this issue, entire families of compression mechanisms have been
developed, including quantization, sparsification, and low-rank approximation,
some of which are seeing significant practical adoption. Despite this progress,
almost all known compression schemes apply compression uniformly across DNN
layers, although layers are heterogeneous in terms of parameter count and their
impact on model accuracy. In this work, we provide a general framework for
adapting the degree of compression across the model's layers dynamically during
training, improving the overall compression, while leading to substantial
speedups, without sacrificing accuracy. Our framework, called L-GreCo, is based
on an adaptive algorithm, which automatically picks the optimal compression
parameters for model layers guaranteeing the best compression ratio while
satisfying an error constraint. Extensive experiments over image classification
and language modeling tasks shows that L-GreCo is effective across all existing
families of compression methods, and achieves up to 2.5$\times$ training
speedup and up to 5$\times$ compression improvement over efficient
implementations of existing approaches, while recovering full accuracy.
Moreover, L-GreCo is complementary to existing adaptive algorithms, improving
their compression ratio by 50% and practical throughput by 66%.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のデータ並列分散トレーニングは非常に広く採用されているが、通信ボトルネックを経験することができる。
この問題に対処するため、量子化、スパーシフィケーション、低ランク近似を含む圧縮機構のすべてのファミリーが開発され、その一部はかなり実用化されている。
この進歩にもかかわらず、ほとんどすべての既知の圧縮スキームはDNN層に一様に適用されるが、パラメータ数とモデル精度への影響は不均一である。
本研究では,トレーニング中にモデルの層間圧縮の度合いを動的に調整し,全体的な圧縮を改善しながら,精度を犠牲にすることなく大幅な高速化を実現するための一般的なフレームワークを提供する。
l-grecoと呼ばれるこのフレームワークは適応アルゴリズムに基づいており、エラー制約を満たしながら最適な圧縮率を保証するモデル層に対する最適な圧縮パラメータを自動的に選択する。
画像分類と言語モデリングタスクに関する大規模な実験により、L-GreCoは既存の圧縮メソッドのすべてのファミリーで有効であり、トレーニングスピードアップで2.5$\times$、既存のアプローチの効率的な実装よりも最大5$\times$圧縮の改善を実現し、完全精度を回復する。
さらに、l-grecoは既存の適応アルゴリズムを補完し、圧縮比を50%、実用スループットを66%向上させる。
関連論文リスト
- Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。