論文の概要: NUQSGD: Provably Communication-efficient Data-parallel SGD via
Nonuniform Quantization
- arxiv url: http://arxiv.org/abs/2104.13818v1
- Date: Wed, 28 Apr 2021 15:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:54:29.423824
- Title: NUQSGD: Provably Communication-efficient Data-parallel SGD via
Nonuniform Quantization
- Title(参考訳): NUQSGD:不均一量子化による通信効率の高いデータ並列SGD
- Authors: Ali Ramezani-Kebrya, Fartash Faghri, Ilya Markov, Vitalii Aksenov, Dan
Alistarh, Daniel M. Roy
- Abstract要約: データ並列SGDの一般的な通信圧縮方法の1つは、通信コストを削減するために勾配を定量化し符号化するQSGDである。
qsgdのベースライン変種は強い理論的保証を提供するが、実際、著者らはqsgdinfと呼ばれる変種を提案した。
本稿では,新しい量子化スキームを提案し,qsgdよりも強い理論保証を持ち,qsgdinfの実証的性能と一致することを示す。
- 参考スコア(独自算出の注目度): 28.849864002527273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size and complexity of models and datasets grow, so does the need for
communication-efficient variants of stochastic gradient descent that can be
deployed to perform parallel model training. One popular
communication-compression method for data-parallel SGD is QSGD (Alistarh et
al., 2017), which quantizes and encodes gradients to reduce communication
costs. The baseline variant of QSGD provides strong theoretical guarantees,
however, for practical purposes, the authors proposed a heuristic variant which
we call QSGDinf, which demonstrated impressive empirical gains for distributed
training of large neural networks. In this paper, we build on this work to
propose a new gradient quantization scheme, and show that it has both stronger
theoretical guarantees than QSGD, and matches and exceeds the empirical
performance of the QSGDinf heuristic and of other compression methods.
- Abstract(参考訳): モデルやデータセットのサイズや複雑さが大きくなるにつれて、並列モデルのトレーニングを実行するためにデプロイできる確率的勾配降下の通信効率の高い変種が必要となる。
data-parallel sgd の一般的な通信圧縮方法は qsgd (alistarh et al., 2017) である。
qsgdのベースライン変種は強い理論的保証を提供するが、実際の目的のために著者らは、大規模ニューラルネットワークの分散トレーニングで印象的な成果を示す、qsgdinfと呼ばれるヒューリスティック変種を提案した。
本稿では,新しい勾配量子化スキームを提案し,qsgdよりも強力な理論保証を持ち,qsgdinfヒューリスティックおよび他の圧縮手法の実証的性能を満たし,超越することを示す。
関連論文リスト
- Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。
厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。
視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文 参考訳(メタデータ) (2025-02-15T12:28:51Z) - On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Quantized Distributed Training of Large Models with Convergence
Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。
QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-05T14:20:55Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z) - Q-GADMM: Quantized Group ADMM for Communication Efficient Decentralized Machine Learning [66.18202188565922]
我々はQGADMM(QGADMM)という通信効率の高い分散機械学習(ML)アルゴリズムを提案する。
我々は,凸関数に対するQGADMMの収束性を証明しつつ,モデル化レベルとその確率を適応的に調整する新しい量子化法を開発した。
論文 参考訳(メタデータ) (2019-10-23T10:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。