論文の概要: Unbiased and Sign Compression in Distributed Learning: Comparing Noise Resilience via SDEs
- arxiv url: http://arxiv.org/abs/2502.17009v1
- Date: Mon, 24 Feb 2025 09:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:07.587353
- Title: Unbiased and Sign Compression in Distributed Learning: Comparing Noise Resilience via SDEs
- Title(参考訳): 分散学習における不偏・符号圧縮--SDEによる雑音耐性の比較
- Authors: Enea Monzio Compagnoni, Rustem Islamov, Frank Norbert Proske, Aurelien Lucchi,
- Abstract要約: 大規模モデルとデータセットで構成される機械学習パイプラインを扱うには、分散メソッドが不可欠だ。
言語モデルでしばしば見られる大きな重み付き勾配雑音に対する頑健さは、いまだに理解されていない。
本研究は,分散圧縮SGD (DCSGD) と分散符号SGD (DSignSGD) を微分方程式を用いて解析することにより,このギャップに対処する。
- 参考スコア(独自算出の注目度): 2.218667838700643
- License:
- Abstract: Distributed methods are essential for handling machine learning pipelines comprising large-scale models and datasets. However, their benefits often come at the cost of increased communication overhead between the central server and agents, which can become the main bottleneck, making training costly or even unfeasible in such systems. Compression methods such as quantization and sparsification can alleviate this issue. Still, their robustness to large and heavy-tailed gradient noise, a phenomenon sometimes observed in language modeling, remains poorly understood. This work addresses this gap by analyzing Distributed Compressed SGD (DCSGD) and Distributed SignSGD (DSignSGD) using stochastic differential equations (SDEs). Our results show that DCSGD with unbiased compression is more vulnerable to noise in stochastic gradients, while DSignSGD remains robust, even under large and heavy-tailed noise. Additionally, we propose new scaling rules for hyperparameter tuning to mitigate performance degradation due to compression. These findings are empirically validated across multiple deep learning architectures and datasets, providing practical recommendations for distributed optimization.
- Abstract(参考訳): 大規模モデルとデータセットで構成される機械学習パイプラインを扱うには、分散メソッドが不可欠だ。
しかし、それらの利点は、中央のサーバとエージェント間の通信オーバーヘッドを増大させることで生じることが多い。
量子化やスパーシフィケーションのような圧縮手法はこの問題を緩和することができる。
それでも、言語モデルでしばしば見られる大きな重み付き勾配雑音に対する頑健さは、いまだに理解されていない。
本研究は,確率微分方程式 (SDE) を用いて分散圧縮SGD (DCSGD) と分散符号SGD (DSignSGD) を解析することにより,このギャップに対処する。
以上の結果より,非バイアス圧縮DCSGDは確率勾配の雑音に対してより脆弱である一方,DSignSGDは大きな重み付きノイズの下でも頑健であることがわかった。
さらに、圧縮による性能劣化を軽減するために、ハイパーパラメータチューニングのための新しいスケーリングルールを提案する。
これらの発見は、複数のディープラーニングアーキテクチャとデータセットで実証的に検証され、分散最適化のための実用的なレコメンデーションを提供する。
関連論文リスト
- Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - $z$-SignFedAvg: A Unified Stochastic Sign-based Compression for
Federated Learning [14.363110221372274]
フェデレートラーニング(FL)は、将来性のあるプライバシ保護型分散ラーニングパラダイムである。
FLは、大規模な機械学習モデルをトレーニングする際に、高い通信コストに悩まされる。
信号ベース圧縮のための一般対称雑音分布を用いた新しい雑音摂動方式を提案する。
論文 参考訳(メタデータ) (2023-02-06T06:54:49Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - On the Utility of Gradient Compression in Distributed Training Systems [9.017890174185872]
本稿では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。
意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。
論文 参考訳(メタデータ) (2021-02-28T15:58:45Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - On Communication Compression for Distributed Optimization on
Heterogeneous Data [28.197694894254305]
機械学習モデルの分散トレーニングにおいて、通信ボトルネックを回避するために、ロッシー勾配圧縮が重要なツールとなっている。
i) 任意の非バイアス量子化器を用いた分散量子化SGDと(ii) エラーフィードバックとバイアス圧縮器を用いた分散SGDの2種類の標準および一般的な手法の性能解析を行う。
以上の結果から,D-EF-SGDは非IDデータによるD-QSGDよりも影響を受けないことがわかった。
論文 参考訳(メタデータ) (2020-09-04T20:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。