論文の概要: DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models
- arxiv url: http://arxiv.org/abs/2404.08079v1
- Date: Thu, 11 Apr 2024 18:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:34:33.658613
- Title: DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models
- Title(参考訳): DIMAT: ディープラーニングモデルのための分散反復マージとトレーニング
- Authors: Nastaran Saadati, Minh Pham, Nasla Saleem, Joshua R. Waite, Aditya Balu, Zhanhong Jiang, Chinmay Hegde, Soumik Sarkar,
- Abstract要約: Decentralized Iterative Merging-And-Training (DIMAT) は、新しい分散深層学習アルゴリズムである。
DIMATは, 独立・同一分散(IID)および非IIDデータを用いて, 通信オーバヘッドの低減を図ることにより, より高速かつ高い初期ゲインが得られることを示す。
このDIMATパラダイムは未来の分散学習に新たな機会を与え、疎結合な通信計算で現実世界への適応性を高める。
- 参考スコア(独自算出の注目度): 21.85879890198875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in decentralized deep learning algorithms have demonstrated cutting-edge performance on various tasks with large pre-trained models. However, a pivotal prerequisite for achieving this level of competitiveness is the significant communication and computation overheads when updating these models, which prohibits the applications of them to real-world scenarios. To address this issue, drawing inspiration from advanced model merging techniques without requiring additional training, we introduce the Decentralized Iterative Merging-And-Training (DIMAT) paradigm--a novel decentralized deep learning framework. Within DIMAT, each agent is trained on their local data and periodically merged with their neighboring agents using advanced model merging techniques like activation matching until convergence is achieved. DIMAT provably converges with the best available rate for nonconvex functions with various first-order methods, while yielding tighter error bounds compared to the popular existing approaches. We conduct a comprehensive empirical analysis to validate DIMAT's superiority over baselines across diverse computer vision tasks sourced from multiple datasets. Empirical results validate our theoretical claims by showing that DIMAT attains faster and higher initial gain in accuracy with independent and identically distributed (IID) and non-IID data, incurring lower communication overhead. This DIMAT paradigm presents a new opportunity for the future decentralized learning, enhancing its adaptability to real-world with sparse and light-weight communication and computation.
- Abstract(参考訳): 分散ディープラーニングアルゴリズムの最近の進歩は、大規模な事前学習モデルを用いた様々なタスクにおける最先端のパフォーマンスを実証している。
しかし、このレベルの競争力を達成するための重要な前提条件は、これらのモデルを更新する際の重要な通信と計算オーバーヘッドである。
この問題に対処するために、高度なモデルマージ技術からインスピレーションを得て、追加のトレーニングを必要とせずに、分散反復マージ・アンド・トレーニング(DIMAT)パラダイムを導入します。
DIMAT内では、各エージェントはローカルデータに基づいてトレーニングされ、収束に到達するまでアクティベーションマッチングのような高度なモデルマージ技術を使用して、近隣エージェントと定期的にマージされる。
DIMATは、様々な一階法を持つ非凸関数の最良の利用率に確実に収束する一方で、一般的な既存手法と比較してより厳密な誤差境界が得られる。
複数のデータセットから得られた多様なコンピュータビジョンタスクにまたがるベースラインに対するDIMATの優位性を検証するための総合的な実証分析を行う。
実験結果から,DIMATは独立・同一分散(IID)および非IIDデータの精度が向上し,通信オーバヘッドの低減が図られた。
このDIMATパラダイムは、分散学習のための新たな機会を示し、スパースで軽量な通信と計算によって現実世界への適応性を高める。
関連論文リスト
- AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Robust Online Learning over Networks [1.0249620437941]
この作業は、分散学習に固有のいくつかの一般的な課題を特に対象とする。
マルチプライヤの交互方向法(ADMM)の分散演算子理論(DOT)版を適用した。
DOT-ADMM演算子が計量部分正則であれば、凸学習問題のクラスに対する線形率に収束する。
論文 参考訳(メタデータ) (2023-09-01T15:18:05Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Cross-Gradient Aggregation for Decentralized Learning from Non-IID data [34.23789472226752]
分散学習により、コラボレーションエージェントのグループは、中央パラメータサーバーを必要とせずに、分散データセットを使用してモデルを学ぶことができる。
本稿では,新たな分散学習アルゴリズムであるクロスグラディエント・アグリゲーション(CGA)を提案する。
既存の最先端の分散学習アルゴリズムよりも優れたCGA学習性能を示す。
論文 参考訳(メタデータ) (2021-03-02T21:58:12Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。