論文の概要: GRAWA: Gradient-based Weighted Averaging for Distributed Training of
Deep Learning Models
- arxiv url: http://arxiv.org/abs/2403.04206v1
- Date: Thu, 7 Mar 2024 04:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:16:36.007990
- Title: GRAWA: Gradient-based Weighted Averaging for Distributed Training of
Deep Learning Models
- Title(参考訳): grawa: ディープラーニングモデルの分散トレーニングのための勾配に基づく重み付け平均化
- Authors: Tolga Dimlioglu, Anna Choromanska
- Abstract要約: 時間制約環境における深層モデルの分散トレーニングについて検討する。
本稿では,労働者の平均値として計算された中心変数に対して,労働者を定期的に引き出すアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.377424534371727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study distributed training of deep learning models in time-constrained
environments. We propose a new algorithm that periodically pulls workers
towards the center variable computed as a weighted average of workers, where
the weights are inversely proportional to the gradient norms of the workers
such that recovering the flat regions in the optimization landscape is
prioritized. We develop two asynchronous variants of the proposed algorithm
that we call Model-level and Layer-level Gradient-based Weighted Averaging
(resp. MGRAWA and LGRAWA), which differ in terms of the weighting scheme that
is either done with respect to the entire model or is applied layer-wise. On
the theoretical front, we prove the convergence guarantee for the proposed
approach in both convex and non-convex settings. We then experimentally
demonstrate that our algorithms outperform the competitor methods by achieving
faster convergence and recovering better quality and flatter local optima. We
also carry out an ablation study to analyze the scalability of the proposed
algorithms in more crowded distributed training environments. Finally, we
report that our approach requires less frequent communication and fewer
distributed updates compared to the state-of-the-art baselines.
- Abstract(参考訳): 時間制約環境におけるディープラーニングモデルの分散トレーニングについて検討した。
本研究では,作業者の重み付け平均として計算された中心変数に対して,作業者の重み付けが作業者の勾配ノルムに反比例し,最適化景観における平坦領域の回復を優先する新しいアルゴリズムを提案する。
本稿では,モデルレベルと階層レベルのグラディエントに基づく重み付き平均化(MGRAWAとLGRAWA)と呼ぶアルゴリズムの非同期な2つの変種を開発し,モデル全体の重み付け方式や層単位で適用される重み付け方式が異なる。
理論的には、凸と非凸の両方の設定において、提案手法の収束保証を証明する。
提案アルゴリズムは,より高速な収束を実現し,より良い品質とより平坦な局所最適性を回復することにより,競合手法よりも優れていることを示す。
また,より混み合った分散学習環境において提案アルゴリズムのスケーラビリティを分析するため,アブレーション研究を行った。
最後に、我々のアプローチでは、最先端のベースラインと比較して、頻繁なコミュニケーションや分散更新がより少ないことを報告します。
関連論文リスト
- Design and Optimization of Hierarchical Gradient Coding for Distributed Learning at Edge Devices [18.77845142335398]
本稿では,エッジノードからなる付加層を用いた階層型分散学習システムにおいて,ストラグラー効果を緩和する問題について検討する。
より優れたストラグラー緩和を実現する階層的勾配符号化フレームワークを提案する。
最適戦略を出力することにより,問題を数学的に解く効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-06-16T07:52:12Z) - Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案アルゴリズムは,様々な条件下で特徴付けられ,オンラインサンプルベース手法に特化していることを示す。
論文 参考訳(メタデータ) (2024-05-15T19:03:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。