論文の概要: DSGD-CECA: Decentralized SGD with Communication-Optimal Exact Consensus
Algorithm
- arxiv url: http://arxiv.org/abs/2306.00256v1
- Date: Thu, 1 Jun 2023 00:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:48:41.002477
- Title: DSGD-CECA: Decentralized SGD with Communication-Optimal Exact Consensus
Algorithm
- Title(参考訳): DSGD-CECA:コミュニケーション最適化合意アルゴリズムによる分散SGD
- Authors: Lisang Ding, Kexin Jin, Bicheng Ying, Kun Yuan, Wotao Yin
- Abstract要約: Decentralized Gradient Descent(SGD)は、複数のエージェントが協調的に同時にモデルをトレーニングすることを可能にする、新たなニューラルネットワークトレーニングアプローチである。
本稿では,Underline Decentralized UnderlineSGD with UnderlineCommunication-Optimal UnderlineExact UnderlineAlgorithm (DSGD-CECA)を提案する。
我々の証明は,ゴシップ重量行列の新たに発見された性質とDSGと組み合わせた新しいアプローチに基づくものである。
- 参考スコア(独自算出の注目度): 30.728112082204724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized Stochastic Gradient Descent (SGD) is an emerging neural network
training approach that enables multiple agents to train a model collaboratively
and simultaneously. Rather than using a central parameter server to collect
gradients from all the agents, each agent keeps a copy of the model parameters
and communicates with a small number of other agents to exchange model updates.
Their communication, governed by the communication topology and gossip weight
matrices, facilitates the exchange of model updates. The state-of-the-art
approach uses the dynamic one-peer exponential-2 topology, achieving faster
training times and improved scalability than the ring, grid, torus, and
hypercube topologies. However, this approach requires a power-of-2 number of
agents, which is impractical at scale. In this paper, we remove this
restriction and propose \underline{D}ecentralized \underline{SGD} with
\underline{C}ommunication-optimal \underline{E}xact \underline{C}onsensus
\underline{A}lgorithm (DSGD-CECA), which works for any number of agents while
still achieving state-of-the-art properties. In particular, DSGD-CECA incurs a
unit per-iteration communication overhead and an $\tilde{O}(n^3)$ transient
iteration complexity. Our proof is based on newly discovered properties of
gossip weight matrices and a novel approach to combine them with DSGD's
convergence analysis. Numerical experiments show the efficiency of DSGD-CECA.
- Abstract(参考訳): Decentralized Stochastic Gradient Descent (SGD)は、複数のエージェントが協調的に同時にモデルをトレーニングできるようにする、新たなニューラルネットワークトレーニングアプローチである。
すべてのエージェントから勾配を収集するために中央パラメータサーバを使用する代わりに、各エージェントはモデルのパラメータのコピーを保持し、少数のエージェントと通信してモデルの更新を交換する。
彼らのコミュニケーションは、コミュニケーショントポロジーとゴシップ重み行列によって制御され、モデル更新の交換を促進する。
最先端のアプローチでは動的ワンピア指数2トポロジーを使用し、リング、グリッド、トーラス、ハイパーキューブトポロジーよりも高速なトレーニング時間とスケーラビリティの向上を実現している。
しかし、このアプローチには、大規模には実用的でないエージェントのパワー・オブ・2が必要となる。
本稿では,この制約を排除し,任意のエージェントに対して,最先端特性を保ちながら機能する,Shaunderline{D}ecentralized \underline{SGD} with \underline{C}ommunication-optimal \underline{E}xact \underline{C}onsensus \underline{A}lgorithm (DSGD-CECA)を提案する。
特にdsgd-cecaは、単位毎の通信オーバーヘッドと$\tilde{o}(n^3)$の過渡的反復複雑性を負う。
本証明は,ゴシップ重量行列の新たに発見された性質と,DSGDの収束解析と組み合わせた新しい手法に基づく。
数値実験によりDSGD-CECAの効率が示された。
関連論文リスト
- Fully First-Order Methods for Decentralized Bilevel Optimization [17.20330936572045]
本稿では,エージェントが隣人とのみ通信する分散二段階最適化(DSBO)に焦点を当てる。
本稿では,既存の作品に広く採用されている2次オラクルよりもはるかに安価な1次オラクルのみを必要とする新しいアルゴリズムである,分散グラディエントDescent and Ascent with Gradient Tracking (DSGDA-GT)を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:11:43Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Accelerating Distributed Optimization: A Primal-Dual Perspective on Local Steps [4.471962177124311]
分散機械学習では、異なるデータを持つ複数のエージェントにまたがる線形変数が大きな課題となる。
本稿では,原変数上のラグランジアン収束を実現するフレームワークは,エージェント間通信を必要としないことを示す。
論文 参考訳(メタデータ) (2024-07-02T22:14:54Z) - Scaling up Stochastic Gradient Descent for Non-convex Optimisation [5.908471365011942]
本稿では,共有並列計算問題に対する新しいアプローチを提案する。
2つの戦略を統一されたフレームワークに組み合わせることで、DPSGDはより良い取引計算フレームワークになります。
深層学習(DRL)問題と深層学習(DRL)問題(アドバンテージアクター - A2C)についてDPSGDにより潜在ゲインを達成できる。
論文 参考訳(メタデータ) (2022-10-06T13:06:08Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - A(DP)$^2$SGD: Asynchronous Decentralized Parallel Stochastic Gradient
Descent with Differential Privacy [15.038697541988746]
一般的な分散学習戦略はフェデレーション学習であり、グローバルモデルを格納する中央サーバと、対応するデータでモデルパラメータを更新するローカルコンピューティングノードのセットがある。
本稿では,ADPSGDの通信効率を保ち,悪意のある参加者による推論を防止する,非同期分散並列SGDフレームワークの差分プライベート版A(DP)$2$SGDを提案する。
論文 参考訳(メタデータ) (2020-08-21T00:56:22Z) - O(1) Communication for Distributed SGD through Two-Level Gradient
Averaging [0.0]
我々は,2段階勾配平均化(A2SGD)と呼ばれる戦略を導入し,すべての勾配を労働者1人当たりの局所的な平均値に統一する。
我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。
論文 参考訳(メタデータ) (2020-06-12T18:20:52Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。