論文の概要: Temporal Predictive Coding for Gradient Compression in Distributed Learning
- arxiv url: http://arxiv.org/abs/2410.02478v1
- Date: Thu, 3 Oct 2024 13:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:01:18.875839
- Title: Temporal Predictive Coding for Gradient Compression in Distributed Learning
- Title(参考訳): 分散学習における勾配圧縮のための時間予測符号化
- Authors: Adrian Edin, Zheng Chen, Michel Kieffer, Mikael Johansson,
- Abstract要約: 本稿では,イベントトリガー通信を用いた分散学習のための予測に基づく勾配圧縮手法を提案する。
我々のゴールは、局所勾配の時間的相関を利用して、分散エージェントからパラメータサーバに送信される情報量を削減することである。
- 参考スコア(独自算出の注目度): 11.704910933646115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a prediction-based gradient compression method for distributed learning with event-triggered communication. Our goal is to reduce the amount of information transmitted from the distributed agents to the parameter server by exploiting temporal correlation in the local gradients. We use a linear predictor that \textit{combines past gradients to form a prediction of the current gradient}, with coefficients that are optimized by solving a least-square problem. In each iteration, every agent transmits the predictor coefficients to the server such that the predicted local gradient can be computed. The difference between the true local gradient and the predicted one, termed the \textit{prediction residual, is only transmitted when its norm is above some threshold.} When this additional communication step is omitted, the server uses the prediction as the estimated gradient. This proposed design shows notable performance gains compared to existing methods in the literature, achieving convergence with reduced communication costs.
- Abstract(参考訳): 本稿では,イベントトリガー通信を用いた分散学習のための予測に基づく勾配圧縮手法を提案する。
我々のゴールは、局所勾配の時間的相関を利用して、分散エージェントからパラメータサーバに送信される情報量を削減することである。
線形予測器を用いて,最小二乗問題の解法により最適化された係数を用いて,過去の勾配を近似し,電流勾配の予測を行う。
各イテレーションでは、各エージェントが予測係数をサーバに送信し、予測された局所勾配を計算することができる。
真の局所勾配と予測された勾配の差は \textit{prediction residual と呼ばれ、そのノルムがしきい値を超えるときのみ伝達される。
} この追加の通信ステップが省略された場合、サーバは推定勾配として予測を使用する。
提案手法は,既存手法と比較して顕著な性能向上を示し,通信コストの低減を図り,コンバージェンスを実現している。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Communication-Efficient Distributed SGD with Compressed Sensing [24.33697801661053]
中央サーバに接続されたエッジデバイスの集合に対する大規模分散最適化について検討する。
近年のフェデレート学習の進歩に触発されて,通信負担を軽減するために,分散勾配降下(SGD)型アルゴリズムを提案する。
我々は,通信チャネルによって発生する雑音摂動の存在下でのアルゴリズムの収束に関する理論的解析を行い,その効果を裏付ける数値実験を行う。
論文 参考訳(メタデータ) (2021-12-15T02:10:45Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - The Shooting Regressor; Randomized Gradient-Based Ensembles [0.0]
ランダム化と損失関数勾配を利用して予測を計算するアンサンブル法を提案する。
複数の弱相関推定器は、誤差面上のランダムにサンプリングされた点の勾配を近似し、最終解に集約する。
論文 参考訳(メタデータ) (2020-09-14T03:20:59Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。