論文の概要: Efficient-Adam: Communication-Efficient Distributed Adam
- arxiv url: http://arxiv.org/abs/2205.14473v2
- Date: Thu, 24 Aug 2023 09:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 19:01:44.190893
- Title: Efficient-Adam: Communication-Efficient Distributed Adam
- Title(参考訳): 効率的なアダム:コミュニケーション効率の良い分散アダム
- Authors: Congliang Chen, Li Shen, Wei Liu and Zhi-Quan Luo
- Abstract要約: 我々は新しいコミュニケーションの複雑さを提示する。
効率のよい分散Adamモデル。
サーバとワーカの間のコストを削減するために、双方向の量子化を行う。
- 参考スコア(独自算出の注目度): 28.287237692902476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed adaptive stochastic gradient methods have been widely used for
large-scale nonconvex optimization, such as training deep learning models.
However, their communication complexity on finding $\varepsilon$-stationary
points has rarely been analyzed in the nonconvex setting. In this work, we
present a novel communication-efficient distributed Adam in the
parameter-server model for stochastic nonconvex optimization, dubbed {\em
Efficient-Adam}. Specifically, we incorporate a two-way quantization scheme
into Efficient-Adam to reduce the communication cost between the workers and
server. Simultaneously, we adopt a two-way error feedback strategy to reduce
the biases caused by the two-way quantization on both the server and workers,
respectively. In addition, we establish the iteration complexity for the
proposed Efficient-Adam with a class of quantization operators, and further
characterize its communication complexity between the server and workers when
an $\varepsilon$-stationary point is achieved. Finally, we apply Efficient-Adam
to solve a toy stochastic convex optimization problem and train deep learning
models on real-world vision and language tasks. Extensive experiments together
with a theoretical guarantee justify the merits of Efficient Adam.
- Abstract(参考訳): 分散適応確率勾配法は、ディープラーニングモデルの訓練など、大規模非凸最適化に広く用いられている。
しかし、$\varepsilon$-stationary 点を求める際の通信複雑性は、非凸条件ではほとんど分析されていない。
本研究では,確率的非凸最適化のためのパラメータサーバモデルにおいて,通信効率の高い分散Adamを新たに提案する。
具体的には,作業者とサーバ間の通信コストを削減するため,双方向量子化方式を効率的なadamに組み込む。
同時に、サーバとワーカの両方の双方向量子化によるバイアスを低減するために、双方向エラーフィードバック戦略を採用します。
加えて,量子化演算子のクラスで提案する効率的なadamの反復複雑性を確立し,$\varepsilon$-stationary point が達成された場合,サーバとワーカー間の通信の複雑さをさらに特徴づける。
最後に,おもちゃの確率凸最適化問題を解くために効率的なadamを適用し,実世界のビジョンと言語タスクでディープラーニングモデルをトレーニングする。
理論的な保証とともに広範な実験は、効率的なアダムの利点を正当化する。
関連論文リスト
- Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Decentralized Gossip-Based Stochastic Bilevel Optimization over
Communication Networks [42.76623191830371]
本稿では,ゴシップに基づく分散二段階最適化アルゴリズムを提案する。
エージェントはネットワークと外部の両方の問題を一度に解くことができる。
我々のアルゴリズムは最先端の効率とテスト精度を達成する。
論文 参考訳(メタデータ) (2022-06-22T06:38:54Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD
Algorithm [39.110478306078974]
AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と正確性を保証する重要な最適化アルゴリズムである。
本稿では,bf ADAM bfプレコンディション付きbf Momentum SGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-26T02:20:23Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。