論文の概要: Scaling up Stochastic Gradient Descent for Non-convex Optimisation
- arxiv url: http://arxiv.org/abs/2210.02882v1
- Date: Thu, 6 Oct 2022 13:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:59:37.693758
- Title: Scaling up Stochastic Gradient Descent for Non-convex Optimisation
- Title(参考訳): 非凸最適化のための確率的勾配降下のスケーリング
- Authors: Saad Mohamad and Hamad Alamri and Abdelhamid Bouchachia
- Abstract要約: 本稿では,共有並列計算問題に対する新しいアプローチを提案する。
2つの戦略を統一されたフレームワークに組み合わせることで、DPSGDはより良い取引計算フレームワークになります。
深層学習(DRL)問題と深層学習(DRL)問題(アドバンテージアクター - A2C)についてDPSGDにより潜在ゲインを達成できる。
- 参考スコア(独自算出の注目度): 5.908471365011942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) is a widely adopted iterative method for
optimizing differentiable objective functions. In this paper, we propose and
discuss a novel approach to scale up SGD in applications involving non-convex
functions and large datasets. We address the bottleneck problem arising when
using both shared and distributed memory. Typically, the former is bounded by
limited computation resources and bandwidth whereas the latter suffers from
communication overheads. We propose a unified distributed and parallel
implementation of SGD (named DPSGD) that relies on both asynchronous
distribution and lock-free parallelism. By combining two strategies into a
unified framework, DPSGD is able to strike a better trade-off between local
computation and communication. The convergence properties of DPSGD are studied
for non-convex problems such as those arising in statistical modelling and
machine learning. Our theoretical analysis shows that DPSGD leads to speed-up
with respect to the number of cores and number of workers while guaranteeing an
asymptotic convergence rate of $O(1/\sqrt{T})$ given that the number of cores
is bounded by $T^{1/4}$ and the number of workers is bounded by $T^{1/2}$ where
$T$ is the number of iterations. The potential gains that can be achieved by
DPSGD are demonstrated empirically on a stochastic variational inference
problem (Latent Dirichlet Allocation) and on a deep reinforcement learning
(DRL) problem (advantage actor critic - A2C) resulting in two algorithms: DPSVI
and HSA2C. Empirical results validate our theoretical findings. Comparative
studies are conducted to show the performance of the proposed DPSGD against the
state-of-the-art DRL algorithms.
- Abstract(参考訳): 確率勾配降下(SGD)は、微分可能な目的関数を最適化するための広く採用されている反復法である。
本稿では,非凸関数や大規模データセットを含むアプリケーションにおいて,SGDをスケールアップするための新しいアプローチを提案する。
共有メモリと分散メモリの両方を使用する場合のボトルネック問題に対処する。
一般に、前者は限られた計算資源と帯域幅に縛られ、後者は通信オーバーヘッドに悩まされる。
本稿では,非同期分散とロックフリー並列性の両方に依存する分散並列化SGD(DPSGD)を提案する。
2つの戦略を統一されたフレームワークに組み込むことで、DPSGDはローカル計算と通信のトレードオフを改善することができる。
DPSGDの収束特性は、統計モデリングや機械学習などの非凸問題に対して研究される。
我々の理論解析によると、DPSGDは、コア数とワーカ数に関してスピードアップし、漸近収束率を$O(1/\sqrt{T})$が$T^{1/4}$、ワーカ数が$T^{1/2}$が$T^{1/2}$となることを保証している。
DPSGDによって達成できる潜在的な利得は、確率的変分推論問題(Latent Dirichlet Allocation)と、DPSVIとHSA2Cの2つのアルゴリズムによる深部強化学習(DRL)問題(アドバンテージ・アクター・批評家 - A2C)で実証的に実証される。
実験結果から理論的知見が得られた。
最新のDRLアルゴリズムに対して提案したDPSGDの性能について比較検討を行った。
関連論文リスト
- $O(d/T)$ Convergence Theory for Diffusion Probabilistic Models under Minimal Assumptions [6.76974373198208]
我々は、最小限の仮定の下で、人気のあるSDEベースのサンプルラーに対して高速収束理論を確立する。
解析の結果, スコア関数の$ell_2$-accurate推定値が与えられた場合, 対象分布と生成分布の総変動距離は$O(d/T)$で上限値となることがわかった。
これは、逆プロセスの各ステップでエラーがどのように伝播するかの詳細な特徴を提供する、新しい分析ツールセットによって達成される。
論文 参考訳(メタデータ) (2024-09-27T17:59:10Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。
我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文 参考訳(メタデータ) (2023-09-07T14:50:31Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Multi-task Learning of Order-Consistent Causal Graphs [59.9575145128345]
我々は、$K関連ガウス非巡回グラフ(DAG)の発見問題を考える。
マルチタスク学習環境下では, 線形構造方程式モデルを学習するためのMLE ($l_1/l$-regularized maximum chance estimator) を提案する。
理論的には、関係するタスクにまたがるデータを活用することで、因果順序を復元する際のサンプルの複雑さをより高めることができることを示す。
論文 参考訳(メタデータ) (2021-11-03T22:10:18Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。