論文の概要: Distributed stochastic optimization with large delays
- arxiv url: http://arxiv.org/abs/2107.02919v1
- Date: Tue, 6 Jul 2021 21:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:53:54.604695
- Title: Distributed stochastic optimization with large delays
- Title(参考訳): 遅延が大きい分散確率最適化
- Authors: Zhengyuan Zhou and Panayotis Mertikopoulos and Nicholas Bambos and
Peter W. Glynn and Yinyu Ye
- Abstract要約: 大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
- 参考スコア(独自算出の注目度): 59.95552973784946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most widely used methods for solving large-scale stochastic
optimization problems is distributed asynchronous stochastic gradient descent
(DASGD), a family of algorithms that result from parallelizing stochastic
gradient descent on distributed computing architectures (possibly)
asychronously. However, a key obstacle in the efficient implementation of DASGD
is the issue of delays: when a computing node contributes a gradient update,
the global model parameter may have already been updated by other nodes several
times over, thereby rendering this gradient information stale. These delays can
quickly add up if the computational throughput of a node is saturated, so the
convergence of DASGD may be compromised in the presence of large delays. Our
first contribution is that, by carefully tuning the algorithm's step-size,
convergence to the critical set is still achieved in mean square, even if the
delays grow unbounded at a polynomial rate. We also establish finer results in
a broad class of structured optimization problems (called variationally
coherent), where we show that DASGD converges to a global optimum with
probability $1$ under the same delay assumptions. Together, these results
contribute to the broad landscape of large-scale non-convex stochastic
optimization by offering state-of-the-art theoretical guarantees and providing
insights for algorithm design.
- Abstract(参考訳): 大規模確率的最適化問題を解決する最も広く用いられている方法の1つは分散非同期確率的勾配降下 (dasgd) である。
しかし、DASGDの効率的な実装における重要な障害は遅延の問題である: 計算ノードが勾配更新に寄与する場合、グローバルモデルパラメータは、既に数回にわたって他のノードによって更新されているため、この勾配情報が陳腐化している。
これらの遅延は、ノードの計算スループットが飽和している場合、すぐに増加するので、DASGDの収束は大きな遅延が存在する場合に妥協される。
最初の貢献は、アルゴリズムのステップサイズを慎重に調整することで、多項式速度で遅延が無拘束に成長しても、臨界集合への収束は平均二乗で達成されるということである。
また,構造最適化問題(変分コヒーレントと呼ばれる)においてより詳細な結果を定め,dasgdが同じ遅延条件下で1ドルの確率でグローバル最適に収束することを示す。
これらの結果は,最先端の理論的保証とアルゴリズム設計への洞察を提供することにより,大規模非凸確率最適化の広範な展望に寄与する。
関連論文リスト
- Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Min-Max Optimization under Delays [26.830212508878162]
大規模な機械学習問題では遅延と非同期は避けられない。
min-max最適化に類似した理論は存在しない。
たとえ小さな遅延であっても、エクストラグラディエントのような顕著なアルゴリズムが分岐する可能性があることを示す。
論文 参考訳(メタデータ) (2023-07-13T16:39:01Z) - Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。
まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。
DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Guided parallelized stochastic gradient descent for delay compensation [0.0]
勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。
ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。
これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
論文 参考訳(メタデータ) (2021-01-17T23:12:40Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Stochastic Gradient Langevin with Delayed Gradients [29.6870062491741]
本研究では,計算に用いた遅延勾配情報による誤差が測定値の収束率に有意な影響を及ぼさないことを示す。
計算に用いた遅延勾配情報による誤差は, 測定値の収束率に有意な影響を与えず, ウォールクロック時間における高速化の可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-12T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。