論文の概要: Local Methods with Adaptivity via Scaling
- arxiv url: http://arxiv.org/abs/2406.00846v2
- Date: Wed, 12 Jun 2024 19:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:56:33.170238
- Title: Local Methods with Adaptivity via Scaling
- Title(参考訳): スケーリングによる適応性のある局所的手法
- Authors: Savelii Chezhegov, Sergey Skorik, Nikolas Khachaturov, Danil Shalagin, Aram Avetisyan, Aleksandr Beznosikov, Martin Takáč, Yaroslav Kholodov, Alexander Gasnikov,
- Abstract要約: 本稿では,局所的な学習手法と適応的アプローチを融合して,効率的な分散学習手法を開発することを目的とする。
従来のローカルSGD法について検討し,スケーリング機能により拡張する。
理論的解析に加えて,ニューラルネットワークのトレーニングにより,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 71.11111992280566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of machine learning and deep learning has introduced increasingly complex optimization challenges that must be addressed. Indeed, training modern, advanced models has become difficult to implement without leveraging multiple computing nodes in a distributed environment. Distributed optimization is also fundamental to emerging fields such as federated learning. Specifically, there is a need to organize the training process to minimize the time lost due to communication. A widely used and extensively researched technique to mitigate the communication bottleneck involves performing local training before communication. This approach is the focus of our paper. Concurrently, adaptive methods that incorporate scaling, notably led by Adam, have gained significant popularity in recent years. Therefore, this paper aims to merge the local training technique with the adaptive approach to develop efficient distributed learning methods. We consider the classical Local SGD method and enhance it with a scaling feature. A crucial aspect is that the scaling is described generically, allowing us to analyze various approaches, including Adam, RMSProp, and OASIS, in a unified manner. In addition to theoretical analysis, we validate the performance of our methods in practice by training a neural network.
- Abstract(参考訳): 機械学習とディープラーニングの急速な開発により、対処しなければならない、ますます複雑な最適化課題がもたらされた。
実際、分散環境で複数の計算ノードを活用することなく、最新の高度なモデルをトレーニングすることは困難になっている。
分散最適化は、フェデレートラーニングのような新興分野にも不可欠である。
具体的には、コミュニケーションによって失われた時間を最小化するために、トレーニングプロセスの組織化が必要である。
コミュニケーションボトルネックを軽減するために広く使われ、広く研究されている技術は、コミュニケーションの前に局所的なトレーニングを実行することである。
このアプローチは私たちの論文の焦点です。
同時に、アダムが主導するスケーリングを取り入れた適応的手法も近年大きな人気を集めている。
そこで本研究では,局所学習手法と適応的アプローチを融合して,効率的な分散学習手法を開発することを目的とする。
従来のローカルSGD法について検討し,スケーリング機能により拡張する。
重要なのは、スケーリングが汎用的に記述され、Adam、RMSProp、OASISなど、さまざまなアプローチを統一的に分析できることです。
理論的解析に加えて,ニューラルネットワークのトレーニングにより,本手法の有効性を検証した。
関連論文リスト
- Robust Decentralized Learning with Local Updates and Gradient Tracking [16.46727164965154]
分散学習をクライアントやノードのネットワークとみなす。
本稿では,局所的な更新と勾配追跡という2つの重要なデータを利用する分散化ミニマックス最適化手法を提案する。
論文 参考訳(メタデータ) (2024-05-02T03:03:34Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Federated Learning with a Sampling Algorithm under Isoperimetry [9.990687944474738]
フェデレーション学習は、機械学習アルゴリズムのトレーニングを複数のデバイスに効率的に分散するために、一連のテクニックを使用する。
本稿では,Langevinvin のサンプル Aafteri の通信効率のよい変種を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:19:03Z) - Toward Communication Efficient Adaptive Gradient Method [29.02154169980269]
近年、分散最適化は、ディープニューラルネットワークのような大規模機械学習モデルのトレーニングを加速するための効果的なアプローチであることが証明されている。
モバイルデバイス上で機械学習モデルをトレーニングする上で,フェデレートラーニングと呼ばれる新たな分散トレーニングパラダイムが人気を博している。
本稿では,連合学習における収束とコミュニケーション効率の両立を保証できる適応的勾配法を提案する。
論文 参考訳(メタデータ) (2021-09-10T21:14:36Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z) - Combining Federated and Active Learning for Communication-efficient
Distributed Failure Prediction in Aeronautics [0.0]
我々は,アクティブラーニングとフェデレートラーニングの学習パラダイムに依存する,新しい集中型分散学習アルゴリズムを提案する。
我々は,この手法を公開ベンチマークで評価し,その精度が非分散学習の最先端性能レベルに非常に近いことを示す。
論文 参考訳(メタデータ) (2020-01-21T13:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。