論文の概要: Espresso: Revisiting Gradient Compression from the System Perspective
- arxiv url: http://arxiv.org/abs/2205.14465v1
- Date: Sat, 28 May 2022 15:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 17:50:05.738437
- Title: Espresso: Revisiting Gradient Compression from the System Perspective
- Title(参考訳): Espresso: システムの観点からのグラディエント圧縮の再考
- Authors: Zhuang Wang, Haibin Lin, Yibo Zhu, T. S. Eugene Ng
- Abstract要約: 分散ディープラーニング(DDL)における通信ボトルネックに対処するためのGC(Gradient compression)は有望なアプローチである
しかし、テンソル間の複雑な相互作用のため、DDLにGCを適用するための最適圧縮戦略を見つけることは困難である。
Espressoは、あらゆるDDLトレーニングジョブのテンソル間のすべての圧縮戦略と対応する相互作用を表現するように設計されている。
これにより、DDLトレーニングジョブの代表者に対して、最先端の圧縮対応システムによるトレーニングスループットを最大77%向上させることができる。
- 参考スコア(独自算出の注目度): 8.535644448611928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gradient compression (GC) is a promising approach to addressing the
communication bottleneck in distributed deep learning (DDL). However, it is
challenging to find the optimal compression strategy for applying GC to DDL
because of the intricate interactions among tensors. To fully unleash the
benefits of GC, two questions must be addressed: 1) How to express all
compression strategies and the corresponding interactions among tensors of any
DDL training job? 2) How to quickly select a near-optimal compression strategy?
In this paper, we propose Espresso to answer these questions. It first designs
a decision tree abstraction to express all the compression strategies and
develops empirical models to timeline tensor computation, communication, and
compression to enable Espresso to derive the intricate interactions among
tensors. It then designs a compression decision algorithm that analyzes tensor
interactions to eliminate and prioritize strategies and optimally offloads
compression to CPUs. Experimental evaluations show that Espresso can improve
the training throughput over the start-of-the-art compression-enabled system by
up to 77% for representative DDL training jobs. Moreover, the computational
time needed to select the compression strategy is measured in milliseconds, and
the selected strategy is only a few percent from optimal.
- Abstract(参考訳): 分散ディープラーニング(DDL)における通信ボトルネックに対処するための,GC(Gradient compression)は有望なアプローチである。
しかし、テンソル間の複雑な相互作用のため、DDLにGCを適用するための最適圧縮戦略を見つけることは困難である。
GCの利点を完全に解き放つには、2つの疑問に対処する必要がある。
1)DDL訓練業務のテンソル間の全ての圧縮戦略と対応する相互作用をどう表現するか。
2)準最適圧縮戦略を迅速に選択する方法
本稿では,これらの質問に答えるためにエスプレッソを提案する。
まず、すべての圧縮戦略を表現する決定木抽象化を設計し、時間軸テンソル計算、通信、および圧縮のための経験モデルを開発し、テンソル間の複雑な相互作用をespressoが導出できるようにする。
次に、テンソル相互作用を分析して戦略を排除し優先順位付けし、cpuへの圧縮を最適にオフロードする圧縮決定アルゴリズムを設計する。
実験評価の結果,espresso は ddl のトレーニングジョブに対して最大 77% のトレーニングスループット向上が期待できることがわかった。
さらに、圧縮戦略を選択するのに必要な計算時間はミリ秒単位で測定され、選択した戦略は最適からわずか数パーセントである。
関連論文リスト
- Order of Compression: A Systematic and Optimal Sequence to Combinationally Compress CNN [5.25545980258284]
本稿では,複数の圧縮手法を最も効率的な順序で適用するための,体系的かつ最適なシーケンスを提案する。
提案手法では,ResNet34の計算コストを最大859倍に削減する。
我々は, モデル圧縮の行程をシンプルかつ効果的に探索することで, モデル圧縮の実践に光を当てることができると考えている。
論文 参考訳(メタデータ) (2024-03-26T07:26:00Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - Lossy and Lossless (L$^2$) Post-training Model Size Compression [12.926354646945397]
本稿では,無損失圧縮と無損失圧縮を統一的に組み合わせた後学習モデルサイズ圧縮法を提案する。
精度を犠牲にすることなく安定な10times$圧縮比を達成でき、短時間で20times$圧縮比を小さくすることができる。
論文 参考訳(メタデータ) (2023-08-08T14:10:16Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Compressing Neural Networks: Towards Determining the Optimal Layer-wise
Decomposition [62.41259783906452]
本稿では,ディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。
各層を自動的に解析し、最適な層間圧縮比を特定する。
我々の結果は、現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する将来の研究のための新たな道を開く。
論文 参考訳(メタデータ) (2021-07-23T20:01:30Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z) - Uncertainty Principle for Communication Compression in Distributed and
Federated Learning and the Search for an Optimal Compressor [5.09755285351264]
我々は,ベクトルのカシン表現にインスパイアされた非バイアス圧縮法を考察し,これをエムカシン圧縮(KC)と呼ぶ。
KC は、各ベクトルエントリごとに数ビットしか通信する必要のない状態であっても、明示的な公式を導出するエム次元独立分散境界を享受する。
論文 参考訳(メタデータ) (2020-02-20T17:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。