論文の概要: SQuARM-SGD: Communication-Efficient Momentum SGD for Decentralized
Optimization
- arxiv url: http://arxiv.org/abs/2005.07041v3
- Date: Mon, 11 Oct 2021 05:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 12:48:50.754106
- Title: SQuARM-SGD: Communication-Efficient Momentum SGD for Decentralized
Optimization
- Title(参考訳): SQuARM-SGD:分散最適化のための通信効率の良いモーメントSGD
- Authors: Navjot Singh, Deepesh Data, Jemin George, Suhas Diggavi
- Abstract要約: 本稿では,ネットワーク上での機械学習モデルの分散学習のための通信効率向上アルゴリズムであるSQuARM-SGDを提案する。
SQuARM-SGDの収束速度は,バニラSGDの収束率と運動量更新率に一致した。
我々は、SQuARM-SGDのモーメント更新を含めることで、モーメント更新を考慮しない現在の最先端技術よりも優れたテスト性能が得られることを実証的に示す。
- 参考スコア(独自算出の注目度): 22.190763887903085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose and analyze SQuARM-SGD, a communication-efficient
algorithm for decentralized training of large-scale machine learning models
over a network. In SQuARM-SGD, each node performs a fixed number of local SGD
steps using Nesterov's momentum and then sends sparsified and quantized updates
to its neighbors regulated by a locally computable triggering criterion. We
provide convergence guarantees of our algorithm for general (non-convex) and
convex smooth objectives, which, to the best of our knowledge, is the first
theoretical analysis for compressed decentralized SGD with momentum updates. We
show that the convergence rate of SQuARM-SGD matches that of vanilla SGD. We
empirically show that including momentum updates in SQuARM-SGD can lead to
better test performance than the current state-of-the-art which does not
consider momentum updates.
- Abstract(参考訳): 本稿では,ネットワーク上での大規模機械学習モデルの分散学習のための通信効率向上アルゴリズムであるSQuARM-SGDを提案する。
squarm-sgdでは、各ノードはネステロフの運動量を用いて一定数の局所sgdステップを実行し、局所計算可能なトリガー基準によって制御された隣接ノードにスパース化および量子化された更新を送信する。
我々は、一般(非凸)および凸滑らかな目的に対するアルゴリズムの収束保証を提供し、これは我々の知る限り、モーメント更新を伴う圧縮分散SGDに対する最初の理論的解析である。
SQuARM-SGDの収束速度はバニラSGDと一致した。
我々は、SQuARM-SGDのモーメント更新を含めることで、モーメント更新を考慮しない現在の最先端技術よりも優れたテスト性能が得られることを実証的に示す。
関連論文リスト
- Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - Ordered Momentum for Asynchronous SGD [12.810976838406193]
本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
論文 参考訳(メタデータ) (2024-07-27T11:35:19Z) - Accurate and Scalable Estimation of Epistemic Uncertainty for Graph
Neural Networks [40.95782849532316]
信頼性インジケータ(CI)は、分散シフト下でグラフニューラルネットワーク(GNN)の安全なデプロイには不可欠である。
表現率やモデルサイズの増加がCIパフォーマンスの向上につながるとは限らないことを示す。
我々は最近提案されたフレームワークを拡張する新しい単一モデルUQ手法であるG-$UQを提案する。
全体として、我々の研究は、新しいフレキシブルなGNN UQメソッドを導入するだけでなく、安全クリティカルなタスクに関するGNN CIに関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-09-20T00:35:27Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training [30.574484395380043]
分散モーメントSGD(DmSGD)は並列モーメントSGDよりも通信効率が高く、すべてのコンピューティングノードでグローバル平均が発生します。
DeLacent大バッチモーメント性能モデルを提案します。
論文 参考訳(メタデータ) (2021-04-24T16:21:01Z) - OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training [5.888925582071453]
本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-14T05:33:36Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文 参考訳(メタデータ) (2020-02-21T20:33:49Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。