論文の概要: Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent
- arxiv url: http://arxiv.org/abs/2308.09430v2
- Date: Mon, 18 Dec 2023 03:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 23:21:19.769060
- Title: Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent
- Title(参考訳): 遅延確率勾配の一般化可能性の解明に向けて
- Authors: Xiaoge Deng, Li Shen, Shengwei Li, Tao Sun, Dongsheng Li, and Dacheng
Tao
- Abstract要約: 非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
- 参考スコア(独自算出の注目度): 63.43247232708004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) performed in an asynchronous manner plays a
crucial role in training large-scale machine learning models. However, the
generalization performance of asynchronous delayed SGD, which is an essential
metric for assessing machine learning algorithms, has rarely been explored.
Existing generalization error bounds are rather pessimistic and cannot reveal
the correlation between asynchronous delays and generalization. In this paper,
we investigate sharper generalization error bound for SGD with asynchronous
delay $\tau$. Leveraging the generating function analysis tool, we first
establish the average stability of the delayed gradient algorithm. Based on
this algorithmic stability, we provide upper bounds on the generalization error
of $\tilde{\mathcal{O}}(\frac{T-\tau}{n\tau})$ and
$\tilde{\mathcal{O}}(\frac{1}{n})$ for quadratic convex and strongly convex
problems, respectively, where $T$ refers to the iteration number and $n$ is the
amount of training data. Our theoretical results indicate that asynchronous
delays reduce the generalization error of the delayed SGD algorithm. Analogous
analysis can be generalized to the random delay setting, and the experimental
results validate our theoretical findings.
- Abstract(参考訳): 非同期に実行される確率的勾配降下(sgd)は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
しかし、機械学習アルゴリズムを評価するための重要な指標である非同期遅延SGDの一般化性能はめったに研究されていない。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
本稿では、非同期遅延$\tau$でSGDのよりシャープな一般化誤差について検討する。
生成関数解析ツールを活用することで、まず遅延勾配アルゴリズムの平均安定性を確立する。
このアルゴリズムの安定性に基づき、それぞれ2次凸問題と強い凸問題に対して$\tilde{\mathcal{O}}(\frac{T-\tau}{n\tau})$と$\tilde{\mathcal{O}}(\frac{1}{n})$の一般化誤差について上限を与える。
その結果,非同期遅延は遅延sgdアルゴリズムの一般化誤差を減少させることが示唆された。
類似解析はランダム遅延設定に一般化でき, 実験結果から理論的知見が得られた。
関連論文リスト
- MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
並列作業者の助けを借りてスムーズな非関数の期待を最小化する問題について検討する。
本稿では,ノイズの重み付けを行う新しい非同期SGD手法であるMindlayer SGDを提案する。
我々の理論は、ノイズが重く尾行されている場合に、Mindlayer SGDの優位性を実証するものである。
論文 参考訳(メタデータ) (2024-10-05T21:11:32Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays [8.46491234455848]
ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。
そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T16:28:37Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Guided parallelized stochastic gradient descent for delay compensation [0.0]
勾配降下(sgd)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使われている。
ビッグデータとディープラーニングの急速な成長により、SGDはエラー関数の逐次最適化の自然な振る舞いのために、もはや最も適した選択ではありません。
これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。
論文 参考訳(メタデータ) (2021-01-17T23:12:40Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Stochastic Gradient Langevin with Delayed Gradients [29.6870062491741]
本研究では,計算に用いた遅延勾配情報による誤差が測定値の収束率に有意な影響を及ぼさないことを示す。
計算に用いた遅延勾配情報による誤差は, 測定値の収束率に有意な影響を与えず, ウォールクロック時間における高速化の可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-12T17:51:30Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。