Fugu-MT 論文翻訳(概要): MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

論文の概要: MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

arxiv url: http://arxiv.org/abs/2410.04285v1
Date: Sat, 5 Oct 2024 21:11:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 08:39:47.446942
Title: MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times
Title（参考訳）: MindFlayer: 異種およびランダムなWorker Compute Timesの存在下での効率的な非同期並列SGD
Authors: Artavazd Maranjyan, Omar Shaikh Omar, Peter Richtárik,
Abstract要約: 並列作業者の助けを借りてスムーズな非関数の期待を最小化する問題について検討する。本稿では,ノイズの重み付けを行う新しい非同期SGD手法であるMindlayer SGDを提案する。我々の理論は、ノイズが重く尾行されている場合に、Mindlayer SGDの優位性を実証するものである。
参考スコア（独自算出の注目度）: 49.1574468325115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of minimizing the expectation of smooth nonconvex functions with the help of several parallel workers whose role is to compute stochastic gradients. In particular, we focus on the challenging situation where the workers' compute times are arbitrarily heterogeneous and random. In the simpler regime characterized by arbitrarily heterogeneous but deterministic compute times, Tyurin and Richt\'arik (NeurIPS 2023) recently designed the first theoretically optimal asynchronous SGD method, called Rennala SGD, in terms of a novel complexity notion called time complexity. The starting point of our work is the observation that Rennala SGD can have arbitrarily bad performance in the presence of random compute times -- a setting it was not designed to handle. To advance our understanding of stochastic optimization in this challenging regime, we propose a new asynchronous SGD method, for which we coin the name MindFlayer SGD. Our theory and empirical results demonstrate the superiority of MindFlayer SGD over existing baselines, including Rennala SGD, in cases when the noise is heavy tailed.
Abstract（参考訳）: 確率勾配を計算するために複数の並列作業者の助けを借りて, 滑らかな非凸関数の期待を最小化する問題について検討する。特に、労働者の計算時間が任意に不均一でランダムな困難な状況に焦点を当てる。任意にヘテロジニアスであるが決定論的な計算時間によって特徴づけられる単純な状態において、Tyurin と Richt\'arik (NeurIPS 2023) は、時間複雑性と呼ばれる新しい複雑性の概念を用いて、初めて理論的に最適な非同期SGD法(Rennala SGD)を設計した。私たちの研究の出発点は、ランダムな計算時間の存在下で、Rennala SGDが任意に悪いパフォーマンスを持つことができるという観察です。本稿では,この難題における確率的最適化の理解を深めるために,MindFlayer SGDという名の非同期SGD法を提案する。我々の理論と実証実験により、Rennala SGDを含む既存のベースラインよりもMindFlayer SGDの方がノイズが重い場合の方が優れていることが示された。

関連論文リスト

Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity [92.1840862558718]
Ringmaster ASGDは任意に不均一な計算時間の下で最適な時間複雑性を達成する。これにより、このようなシナリオにおける時間複雑性の理論的な下限を満たす最初の非同期SGD法となる。
論文参考訳（メタデータ） (2025-01-27T16:07:26Z)
Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文参考訳（メタデータ） (2024-06-17T02:56:55Z)
Freya PAGE: First Optimal Time Complexity for Large-Scale Nonconvex Finite-Sum Optimization with Heterogeneous Asynchronous Computations [92.1840862558718]
実用的な分散システムでは、労働者は概して均質ではなく、非常に多様な処理時間を持つ。本稿では、任意に遅い計算を扱うための新しい並列手法Freyaを提案する。 Freyaは従来の手法と比較して,複雑性の保証が大幅に向上していることを示す。
論文参考訳（メタデータ） (2024-05-24T13:33:30Z)
AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文参考訳（メタデータ） (2023-10-31T13:44:53Z)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳（メタデータ） (2023-08-18T10:00:27Z)
Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays [8.46491234455848]
ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
論文参考訳（メタデータ） (2022-06-15T16:28:37Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文参考訳（メタデータ） (2020-03-23T23:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。