論文の概要: FastSGD: A Fast Compressed SGD Framework for Distributed Machine
Learning
- arxiv url: http://arxiv.org/abs/2112.04291v1
- Date: Wed, 8 Dec 2021 13:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 16:47:51.048152
- Title: FastSGD: A Fast Compressed SGD Framework for Distributed Machine
Learning
- Title(参考訳): FastSGD:分散機械学習のための高速圧縮SGDフレームワーク
- Authors: Keyu Yang, Lu Chen, Zhihao Zeng, Yunjun Gao
- Abstract要約: Gradient Descent(SGD)は、分散機械学習(ML)のワークホースアルゴリズムであることは間違いない。
FastSGDは勾配をキー-値ペアとして表現し、勾配キーと値の両方を線形時間複雑性で圧縮する。
FastSGDは最大4桁の圧縮比を達成し、最先端の手法と比較して収束時間を最大8倍に加速する。
- 参考スコア(独自算出の注目度): 16.542846343774357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid increase of big data, distributed Machine Learning (ML) has
been widely applied in training large-scale models. Stochastic Gradient Descent
(SGD) is arguably the workhorse algorithm of ML. Distributed ML models trained
by SGD involve large amounts of gradient communication, which limits the
scalability of distributed ML. Thus, it is important to compress the gradients
for reducing communication. In this paper, we propose FastSGD, a Fast
compressed SGD framework for distributed ML. To achieve a high compression
ratio at a low cost, FastSGD represents the gradients as key-value pairs, and
compresses both the gradient keys and values in linear time complexity. For the
gradient value compression, FastSGD first uses a reciprocal mapper to transform
original values into reciprocal values, and then, it utilizes a logarithm
quantization to further reduce reciprocal values to small integers. Finally,
FastSGD filters reduced gradient integers by a given threshold. For the
gradient key compression, FastSGD provides an adaptive fine-grained delta
encoding method to store gradient keys with fewer bits. Extensive experiments
on practical ML models and datasets demonstrate that FastSGD achieves the
compression ratio up to 4 orders of magnitude, and accelerates the convergence
time up to 8x, compared with state-of-the-art methods.
- Abstract(参考訳): ビッグデータの急速な増加に伴い、分散機械学習(ML)は大規模モデルのトレーニングに広く適用されてきた。
Stochastic Gradient Descent (SGD) は間違いなくMLのワークホースアルゴリズムである。
SGDによって訓練された分散MLモデルは、分散MLのスケーラビリティを制限する大量の勾配通信を含む。
したがって、通信を減らすために勾配を圧縮することが重要である。
本稿では,分散MLのための高速圧縮SGDフレームワークであるFastSGDを提案する。
低コストで高い圧縮比を達成するために、FastSGDは勾配をキー値対として表現し、勾配鍵と値の両方を線形時間複雑性で圧縮する。
勾配値の圧縮のために、FastSGDはまず、逆マッパーを使用して元の値を相互値に変換する。
最後に、FastSGDフィルタは所定の閾値で勾配整数を減らした。
勾配鍵圧縮のために、fastsgdはより少ないビットで勾配鍵を格納する適応的細粒度デルタ符号化方法を提供する。
実用的なMLモデルとデータセットに関する大規模な実験は、FastSGDが最大4桁の圧縮比を達成し、最先端の手法と比較して最大8倍の収束時間を加速することを示した。
関連論文リスト
- Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,FNGD法とFNGD法について述べる。
FNGDは、自然勾配降下を、一階法の平均和に類似した固定係数重み付き和として近似する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - S2 Reducer: High-Performance Sparse Communication to Accelerate
Distributed Deep Learning [11.21739015522637]
本稿では,収差保証付き新規なスケッチベーススパース勾配法であるスパース・スケッチ・リデューサ (S2 Reducer) を提案する。
S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減できる。
以上の結果から,S2reduceerは同じ精度に収束し,スパース通信のオーバーヘッドを81%低減し,最先端手法と比較して1.8$$の高速化を実現した。
論文 参考訳(メタデータ) (2021-10-05T16:14:40Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Federated Stochastic Gradient Langevin Dynamics [12.180900849847252]
勾配ランゲヴィン力学(SGLD)のような勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。
本稿では,局所確率近似を組み合わせ,勾配の修正を行う単純なメカニズムである導出勾配を提案する。
DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。
論文 参考訳(メタデータ) (2020-04-23T15:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。