論文の概要: Adjacent Leader Decentralized Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2405.11389v1
- Date: Sat, 18 May 2024 20:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:59:18.193730
- Title: Adjacent Leader Decentralized Stochastic Gradient Descent
- Title(参考訳): 隣の指導者が分散した確率的グラディエントDescence
- Authors: Haoze He, Jing Wang, Anna Choromanska,
- Abstract要約: この研究は、分散ディープラーニング最適化フレームワークに焦点を当てている。
我々は、隣接型リーダー分散グラディエントディフレッシュ(AL-DSGD)を提案する。
実験により、AL-DSGDは分散化された最先端技術の収束を加速することが示された。
- 参考スコア(独自算出の注目度): 9.851963228675876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on the decentralized deep learning optimization framework. We propose Adjacent Leader Decentralized Gradient Descent (AL-DSGD), for improving final model performance, accelerating convergence, and reducing the communication overhead of decentralized deep learning optimizers. AL-DSGD relies on two main ideas. Firstly, to increase the influence of the strongest learners on the learning system it assigns weights to different neighbor workers according to both their performance and the degree when averaging among them, and it applies a corrective force on the workers dictated by both the currently best-performing neighbor and the neighbor with the maximal degree. Secondly, to alleviate the problem of the deterioration of the convergence speed and performance of the nodes with lower degrees, AL-DSGD relies on dynamic communication graphs, which effectively allows the workers to communicate with more nodes while keeping the degrees of the nodes low. Experiments demonstrate that AL-DSGD accelerates the convergence of the decentralized state-of-the-art techniques and improves their test performance especially in the communication constrained environments. We also theoretically prove the convergence of the proposed scheme. Finally, we release to the community a highly general and concise PyTorch-based library for distributed training of deep learning models that supports easy implementation of any distributed deep learning approach ((a)synchronous, (de)centralized).
- Abstract(参考訳): この研究は、分散ディープラーニング最適化フレームワークに焦点を当てている。
本稿では,最終モデルの性能向上,収束の促進,分散型ディープラーニングオプティマイザの通信オーバーヘッドの低減を図るために,Al-DSGD(Adjacent Leader Decentralized Gradient Descent)を提案する。
AL-DSGDは2つの主要なアイデアに依存している。
まず,学習システムにおける最強学習者の影響力を高めるために,各学習者の成績と平均化の度合いに応じて,各近隣労働者に重みを割り当て,現在最高の成績を収めている隣人と隣人の両方が最大化の度合いで定めている労働者に補正力を適用する。
第二に、低次ノードの収束速度の低下と性能の低下を緩和するため、AL-DSGDは動的通信グラフに依存しており、ノードの次数を低く保ちながら、効果的により多くのノードと通信することができる。
実験により、AL-DSGDは、分散化された最先端技術の収束を加速し、特に通信制約環境でのテスト性能を向上させることが示された。
また,提案手法の収束を理論的に証明する。
最後に、分散ディープラーニングアプローチ((a)同期、(de)分散化)の簡単な実装をサポートするディープラーニングモデルの分散トレーニングのための、非常に汎用的で簡潔なPyTorchベースのライブラリをコミュニティにリリースする。
関連論文リスト
- A Communication and Computation Efficient Fully First-order Method for Decentralized Bilevel Optimization [16.020878731214083]
本稿では,分散バイレベル最適化のための完全一階分散手法である$textC2$DFBを提案する。
$textC2$DFBは計算効率と通信効率の両方です。
論文 参考訳(メタデータ) (2024-10-18T02:00:45Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration [66.43954501171292]
本稿では,Catalytics Accelerationを導入し,DFedCataと呼ばれる促進型分散フェデレート学習アルゴリズムを提案する。
DFedCataは、パラメータの不整合に対処するMoreauエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。
実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。
論文 参考訳(メタデータ) (2024-10-09T06:17:16Z) - NTK-DFL: Enhancing Decentralized Federated Learning in Heterogeneous Settings via Neural Tangent Kernel [27.92271597111756]
Decentralized Federated Learning (DFL) は、中央サーバや生のデータ交換なしで参加者間でモデルをトレーニングするための、協調的な機械学習フレームワークである。
近年の研究では、集中型フレームワークにおけるフェデレーション学習に適用されたニューラルタンジェントカーネル(NTK)アプローチが、パフォーマンスの向上につながることが示されている。
本稿では,NTKベースの進化とモデル平均化の相乗効果を導入しながら,分散環境でクライアントモデルを訓練するためにNTKを活用するアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-02T18:19:28Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep
Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。
ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文 参考訳(メタデータ) (2022-03-24T14:25:15Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。