論文の概要: NUQSGD: Provably Communication-efficient Data-parallel SGD via
Nonuniform Quantization
- arxiv url: http://arxiv.org/abs/2104.13818v1
- Date: Wed, 28 Apr 2021 15:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:54:29.423824
- Title: NUQSGD: Provably Communication-efficient Data-parallel SGD via
Nonuniform Quantization
- Title(参考訳): NUQSGD:不均一量子化による通信効率の高いデータ並列SGD
- Authors: Ali Ramezani-Kebrya, Fartash Faghri, Ilya Markov, Vitalii Aksenov, Dan
Alistarh, Daniel M. Roy
- Abstract要約: データ並列SGDの一般的な通信圧縮方法の1つは、通信コストを削減するために勾配を定量化し符号化するQSGDである。
qsgdのベースライン変種は強い理論的保証を提供するが、実際、著者らはqsgdinfと呼ばれる変種を提案した。
本稿では,新しい量子化スキームを提案し,qsgdよりも強い理論保証を持ち,qsgdinfの実証的性能と一致することを示す。
- 参考スコア(独自算出の注目度): 28.849864002527273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size and complexity of models and datasets grow, so does the need for
communication-efficient variants of stochastic gradient descent that can be
deployed to perform parallel model training. One popular
communication-compression method for data-parallel SGD is QSGD (Alistarh et
al., 2017), which quantizes and encodes gradients to reduce communication
costs. The baseline variant of QSGD provides strong theoretical guarantees,
however, for practical purposes, the authors proposed a heuristic variant which
we call QSGDinf, which demonstrated impressive empirical gains for distributed
training of large neural networks. In this paper, we build on this work to
propose a new gradient quantization scheme, and show that it has both stronger
theoretical guarantees than QSGD, and matches and exceeds the empirical
performance of the QSGDinf heuristic and of other compression methods.
- Abstract(参考訳): モデルやデータセットのサイズや複雑さが大きくなるにつれて、並列モデルのトレーニングを実行するためにデプロイできる確率的勾配降下の通信効率の高い変種が必要となる。
data-parallel sgd の一般的な通信圧縮方法は qsgd (alistarh et al., 2017) である。
qsgdのベースライン変種は強い理論的保証を提供するが、実際の目的のために著者らは、大規模ニューラルネットワークの分散トレーニングで印象的な成果を示す、qsgdinfと呼ばれるヒューリスティック変種を提案した。
本稿では,新しい勾配量子化スキームを提案し,qsgdよりも強力な理論保証を持ち,qsgdinfヒューリスティックおよび他の圧縮手法の実証的性能を満たし,超越することを示す。
関連論文リスト
- Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Quantized Distributed Training of Large Models with Convergence
Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。
QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-05T14:20:55Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。