論文の概要: L-GreCo: An Efficient and General Framework for Layerwise-Adaptive
Gradient Compression
- arxiv url: http://arxiv.org/abs/2210.17357v1
- Date: Mon, 31 Oct 2022 14:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:40:08.136327
- Title: L-GreCo: An Efficient and General Framework for Layerwise-Adaptive
Gradient Compression
- Title(参考訳): L-GreCo: 階層適応型勾配圧縮のための効率的で汎用的なフレームワーク
- Authors: Mohammadreza Alimohammadi, Ilia Markov, Elias Frantar, Dan Alistarh
- Abstract要約: トレーニング中にモデルの層をまたいだ圧縮の度合いを動的に適用するためのフレームワークを提供する。
我々のフレームワークはL-GreCoと呼ばれ、効率的な適応アルゴリズムに基づいている。
L-GreCoは圧縮率を50%向上し,実効スループットを66%向上させる既存の適応アルゴリズムと相補的であることを示す。
- 参考スコア(独自算出の注目度): 24.712888488317816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-parallel distributed training of deep neural networks (DNN) has gained
very widespread adoption, but can still experience communication bottlenecks
due to gradient transmission. To address this issue, entire families of lossy
gradient compression mechanisms have been developed, including quantization,
sparsification, and low-rank approximation, some of which are seeing
significant practical adoption. Despite this progress, almost all known
compression schemes apply compression uniformly across DNN layers, although
layers are heterogeneous in terms of parameter count and their impact on model
accuracy. In this work, we provide a general framework for adapting the degree
of compression across the model's layers dynamically during training,
significantly improving the overall compression without sacrificing accuracy.
Our framework, called L-GreCo, is based on an efficient adaptive algorithm,
which automatically picks the optimal compression parameters for model layers
guaranteeing the best compression ratio while respecting a
theoretically-justified error constraint. Our extensive experimental study over
image classification and language modeling tasks shows that L-GreCo is
effective across all three compression families, and achieves up to 2.5$\times$
training speedup and up to 5$\times$ compression improvement over efficient
implementations of standard approaches while recovering full accuracy.
Moreover, we show that L-GreCo is complementary to existing adaptive algorithms
improving their compression ratio by 50% and practical throughput by 66%.
- Abstract(参考訳): data-parallel distributed training of deep neural networks (dnn) は広く採用されているが、勾配伝達による通信ボトルネックを経験できる。
この問題に対処するために、量子化、スパーシフィケーション、低ランク近似など、損失のある勾配圧縮機構のファミリー全体が開発され、そのいくつかは実用的な適用が行われている。
この進歩にもかかわらず、ほとんどすべての既知の圧縮スキームはDNN層に一様に適用されるが、パラメータ数とモデル精度への影響は不均一である。
本研究では,トレーニング中にモデルの層を動的に圧縮し,精度を犠牲にすることなく全体的な圧縮を著しく改善する汎用フレームワークを提案する。
我々のフレームワークはL-GreCoと呼ばれ、理論上最適化された誤差制約を尊重しながら、最適な圧縮比を保証するモデル層に対する最適圧縮パラメータを自動的に選択する効率的な適応アルゴリズムに基づいている。
画像分類および言語モデリングタスクに関する広範な実験により,l-grecoは3つの圧縮ファミリすべてにおいて有効であり,最大2.5$\times$ トレーニングスピードアップと最大5$\times$ 圧縮改善を達成し,完全な精度を回復した。
さらに,L-GreCoは圧縮率を50%向上し,スループットを66%向上させる既存の適応アルゴリズムと相補的であることを示す。
関連論文リスト
- CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。