論文の概要: Improved Quantization Strategies for Managing Heavy-tailed Gradients in
Distributed Learning
- arxiv url: http://arxiv.org/abs/2402.01798v1
- Date: Fri, 2 Feb 2024 06:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 01:51:15.266627
- Title: Improved Quantization Strategies for Managing Heavy-tailed Gradients in
Distributed Learning
- Title(参考訳): 分散学習における重み付き勾配管理のための量子化戦略の改善
- Authors: Guangfeng Yan, Tan Li, Yuanzhang Xiao, Hanxu Hou and Linqi Song
- Abstract要約: その結果, 勾配分布は重く, アウトレーヤは圧縮戦略の設計に大きく影響していることがわかった。
既存のパラメータ量子化法は、この重み付き特徴が無視されるときに性能劣化を経験する。
重み付き勾配勾配に特化して設計された新しい圧縮スキームを導入し, トラルニケーションと量子化を効果的に組み合わせた。
- 参考スコア(独自算出の注目度): 20.91559450517002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient compression has surfaced as a key technique to address the challenge
of communication efficiency in distributed learning. In distributed deep
learning, however, it is observed that gradient distributions are heavy-tailed,
with outliers significantly influencing the design of compression strategies.
Existing parameter quantization methods experience performance degradation when
this heavy-tailed feature is ignored. In this paper, we introduce a novel
compression scheme specifically engineered for heavy-tailed gradients, which
effectively combines gradient truncation with quantization. This scheme is
adeptly implemented within a communication-limited distributed Stochastic
Gradient Descent (SGD) framework. We consider a general family of heavy-tail
gradients that follow a power-law distribution, we aim to minimize the error
resulting from quantization, thereby determining optimal values for two
critical parameters: the truncation threshold and the quantization density. We
provide a theoretical analysis on the convergence error bound under both
uniform and non-uniform quantization scenarios. Comparative experiments with
other benchmarks demonstrate the effectiveness of our proposed method in
managing the heavy-tailed gradients in a distributed learning environment.
- Abstract(参考訳): 勾配圧縮は、分散学習におけるコミュニケーション効率の課題に対処するための鍵となる技術である。
しかし, 分散深層学習では, 勾配分布が重く, 外れ値が圧縮戦略の設計に大きな影響を与えることが観察された。
既存のパラメータ量子化手法では、この重み付き特徴が無視されると性能が低下する。
本稿では,重み付き勾配に特化して設計された新しい圧縮手法を提案する。
このスキームは、通信制限付き分散確率勾配降下(sgd)フレームワークでしばしば実装される。
我々は, パワーロー分布に従う重尾勾配の一般族を考えることで, 量子化による誤差を最小化し, 停止閾値と量子化密度の2つの臨界パラメータの最適値を決定することを目的とする。
均一および非一様量子化シナリオ下での収束誤差に関する理論的解析を行う。
他のベンチマークとの比較実験により,分散学習環境における重み付き勾配管理における提案手法の有効性が示された。
関連論文リスト
- Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Truncated Non-Uniform Quantization for Distributed SGD [17.30572818507568]
分散勾配Descent(SGD)の通信効率を高めるための新しい2段階量子化戦略を導入する。
提案手法は, 当初, 長い尾音の影響を軽減するためにトラニケーションを用いており, 続いて, 統計的特性に基づいて, トラニケーション後の勾配の均一な量子化を行う。
提案アルゴリズムは既存の量子化方式よりも優れており,通信効率と収束性能のバランスが優れている。
論文 参考訳(メタデータ) (2024-02-02T05:59:48Z) - On Uniform Scalar Quantization for Learned Image Compression [17.24702997651976]
その結果,サロゲートとラウンドリングの相違が列車のミスマッチの原因となり,サロゲートによる勾配推定のリスクが生じた。
解析により,推定量化潜在分布の分散に対する適切な下限を設定することで,列車のミスマッチを効果的に低減する2つの微妙なトリックが明らかになった。
本手法は,様々な画像圧縮ネットワークにおいて,従来の量子化サロゲートよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T08:23:36Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Quantized Adam with Error Feedback [11.91306069500983]
本稿では,深層ニューラルネットワークを学習するための適応勾配法の分散変種について述べる。
労働者間の通信コストを低減するために,2種類の量子化方式を取り入れた。
論文 参考訳(メタデータ) (2020-04-29T13:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。