論文の概要: DNN gradient lossless compression: Can GenNorm be the answer?
- arxiv url: http://arxiv.org/abs/2111.07599v1
- Date: Mon, 15 Nov 2021 08:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 17:55:30.658515
- Title: DNN gradient lossless compression: Can GenNorm be the answer?
- Title(参考訳): dnngradient lossless compression: gennormが答えになるのか?
- Authors: Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang, Stefano Rini
- Abstract要約: 勾配圧縮は多くの分散ディープニューラルネットワーク(DNN)トレーニングシナリオに関係している。
実用的関心を持ついくつかのネットワークでは、勾配成分は一般化正規分布(GenNorm)を持つようにうまくモデル化することができる。
- 参考スコア(独自算出の注目度): 17.37160669785566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, the problem of optimal gradient lossless compression in Deep
Neural Network (DNN) training is considered. Gradient compression is relevant
in many distributed DNN training scenarios, including the recently popular
federated learning (FL) scenario in which each remote users are connected to
the parameter server (PS) through a noiseless but rate limited channel. In
distributed DNN training, if the underlying gradient distribution is available,
classical lossless compression approaches can be used to reduce the number of
bits required for communicating the gradient entries. Mean field analysis has
suggested that gradient updates can be considered as independent random
variables, while Laplace approximation can be used to argue that gradient has a
distribution approximating the normal (Norm) distribution in some regimes. In
this paper we argue that, for some networks of practical interest, the gradient
entries can be well modelled as having a generalized normal (GenNorm)
distribution. We provide numerical evaluations to validate that the hypothesis
GenNorm modelling provides a more accurate prediction of the DNN gradient tail
distribution. Additionally, this modeling choice provides concrete improvement
in terms of lossless compression of the gradients when applying classical
fix-to-variable lossless coding algorithms, such as Huffman coding, to the
quantized gradient updates. This latter results indeed provides an effective
compression strategy with low memory and computational complexity that has
great practical relevance in distributed DNN training scenarios.
- Abstract(参考訳): 本稿では,Deep Neural Network(DNN)トレーニングにおける最適勾配損失圧縮の問題について考察する。
勾配圧縮は、多くの分散dnnトレーニングシナリオに関係しており、例えば、最近普及したfederated learning(fl)シナリオでは、各リモートユーザがノイズの少ないレート制限チャンネルを介してパラメータサーバ(ps)に接続されている。
分散DNNトレーニングでは、基礎となる勾配分布が利用可能であれば、古典的なロスレス圧縮手法を用いて勾配エントリの通信に必要なビット数を削減できる。
平均場解析は勾配更新を独立確率変数とみなすことができ、ラプラス近似は勾配が正規分布(Norm)を近似する分布を持つと主張するために用いられる。
本稿では, 実用的関心のあるネットワークにおいて, 勾配項目を一般化正規分布(gennorm)分布としてよくモデル化することができることを論じる。
我々は,仮説GenNormモデリングがDNN勾配尾部分布をより正確に予測できることを示す数値評価を行う。
さらに、このモデリングの選択は、量子化された勾配更新にハフマン符号のような古典的な固定から可変のロスレス符号化アルゴリズムを適用する際の勾配のロスレス圧縮という観点で具体的な改善をもたらす。
後者の結果は、分散DNNトレーニングシナリオにおいて非常に実践的な関連性を持つ、メモリと計算の複雑さの少ない効果的な圧縮戦略を提供する。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - A Biased Graph Neural Network Sampler with Near-Optimal Regret [57.70126763759996]
グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として登場した。
本論文では,既存の作業に基づいて,GNN近傍サンプリングをマルチアームバンディット問題として扱う。
そこで本研究では,分散を低減し,不安定かつ非限定的な支払いを回避すべく設計されたバイアスをある程度導入した報酬関数を提案する。
論文 参考訳(メタデータ) (2021-03-01T15:55:58Z) - Efficient Distributed Auto-Differentiation [22.192220404846267]
大規模ディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
このプロセスは、バックプロパゲーション中のグラデーション平均の柔軟性を提供し、新しい柔軟なトレーニングスキーマを可能にします。
論文 参考訳(メタデータ) (2021-02-18T21:46:27Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Quantizing data for distributed learning [24.46948464551684]
通信制約がパフォーマンスのボトルネックを生じさせるネットワーク上のデータを活用することで、モデルをトレーニングする機械学習アプリケーションを検討する。
最近の多くのアプローチでは、更新の圧縮によってこのボトルネックを克服することを提案しているが、モデルが大きくなり、データセットのサイズも大きくなる。
本稿では,グラデーション更新よりもデータを定量化し,学習アプリケーションを支援することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:54:41Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。