論文の概要: GT-STORM: Taming Sample, Communication, and Memory Complexities in
Decentralized Non-Convex Learning
- arxiv url: http://arxiv.org/abs/2105.01231v1
- Date: Tue, 4 May 2021 00:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 22:27:42.491168
- Title: GT-STORM: Taming Sample, Communication, and Memory Complexities in
Decentralized Non-Convex Learning
- Title(参考訳): GT-STORM:分散非凸学習におけるサンプル,通信,メモリ複雑性のモデリング
- Authors: Xin Zhang, Jia Liu, Zhengyuan Zhu, and Elizabeth S. Bentley
- Abstract要約: 近年,分散1/2非堅牢性最適化が注目されている。
分散最適化アルゴリズムの設計における3つの基本的な課題は、サンプルコスト、通信、メモリ複雑さの削減である。
- 参考スコア(独自算出の注目度): 11.129095449532283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized nonconvex optimization has received increasing attention in
recent years in machine learning due to its advantages in system robustness,
data privacy, and implementation simplicity. However, three fundamental
challenges in designing decentralized optimization algorithms are how to reduce
their sample, communication, and memory complexities. In this paper, we propose
a \underline{g}radient-\underline{t}racking-based \underline{sto}chastic
\underline{r}ecursive \underline{m}omentum (GT-STORM) algorithm for efficiently
solving nonconvex optimization problems. We show that to reach an
$\epsilon^2$-stationary solution, the total number of sample evaluations of our
algorithm is $\tilde{O}(m^{1/2}\epsilon^{-3})$ and the number of communication
rounds is $\tilde{O}(m^{-1/2}\epsilon^{-3})$, which improve the
$O(\epsilon^{-4})$ costs of sample evaluations and communications for the
existing decentralized stochastic gradient algorithms. We conduct extensive
experiments with a variety of learning models, including non-convex logistical
regression and convolutional neural networks, to verify our theoretical
findings. Collectively, our results contribute to the state of the art of
theories and algorithms for decentralized network optimization.
- Abstract(参考訳): 分散非凸最適化は、システムの堅牢性、データプライバシ、実装の単純さに利点があるため、近年、機械学習において注目を集めている。
しかし、分散最適化アルゴリズムの設計における3つの根本的な課題は、サンプル、通信、メモリの複雑さを減らす方法である。
本稿では,非凸最適化問題を効率的に解くために,\underline{g}radient-\underline{t}racking-based \underline{sto}chastic \underline{r}ecursive \underline{m}omentum (gt-storm) アルゴリズムを提案する。
我々は,本アルゴリズムのサンプル評価の総数は$\tilde{O}(m^{1/2}\epsilon^{-3})$で,通信ラウンドの総数は$\tilde{O}(m^{-1/2}\epsilon^{-3})$で,O(\epsilon^{-4})$は既存の分散確率勾配アルゴリズムのサンプル評価と通信のコストを改善する。
我々は,非凸性ロジスティック回帰や畳み込みニューラルネットワークなど,様々な学習モデルを用いて広範な実験を行い,理論的知見の検証を行った。
本結果は,分散ネットワーク最適化のための理論とアルゴリズムの最先端に寄与する。
関連論文リスト
- Faster Adaptive Decentralized Learning Algorithms [24.379734053137597]
適応学習と有限サム最適化のための高速分散非分散アルゴリズム(AdaMDOSとAdaMDOF)のクラスを提案する。
いくつかの実験結果から,アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2024-08-19T08:05:33Z) - Stochastic Constrained Decentralized Optimization for Machine Learning with Fewer Data Oracles: a Gradient Sliding Approach [32.36073823372713]
機械学習モデルでは、アルゴリズムはその勾配のためにデータセンターとサンプルデータに通信する必要がある。
これにより、通信効率が良く、勾配計算の数を最小限に抑える分散最適化アルゴリズムの必要性が生じる。
通信効率が高く,$varepsilon$-approximate のソリューションを実現する。
論文 参考訳(メタデータ) (2024-04-03T06:55:59Z) - Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - INTERACT: Achieving Low Sample and Communication Complexities in
Decentralized Bilevel Learning over Networks [24.02913189682224]
分散化された双方向最適化問題は、ネットワーク機械学習コミュニティで注目を集めている。
低サンプリングと通信の複雑さは、未調査のままである2つの基本的な課題である。
我々の研究は、ネットワーク上の分散化された二段階最適化問題を解決するために、低サンプリングと通信の複雑さの両方を初めて解決した。
論文 参考訳(メタデータ) (2022-07-27T04:19:28Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Decentralized Gossip-Based Stochastic Bilevel Optimization over
Communication Networks [42.76623191830371]
本稿では,ゴシップに基づく分散二段階最適化アルゴリズムを提案する。
エージェントはネットワークと外部の両方の問題を一度に解くことができる。
我々のアルゴリズムは最先端の効率とテスト精度を達成する。
論文 参考訳(メタデータ) (2022-06-22T06:38:54Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。