論文の概要: Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method
- arxiv url: http://arxiv.org/abs/2512.01732v1
- Date: Mon, 01 Dec 2025 14:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.900176
- Title: Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method
- Title(参考訳): Beyond Scaffold: 統合時空間勾配追跡法
- Authors: Yan Huang, Jinming Xu, Jiming Chen, Karl Henrik Johansson,
- Abstract要約: 分散学習アルゴリズムとローカル学習アルゴリズムでは、通信ラウンド間で複数のローカル更新を実行することでオーバーヘッドを削減できる。
分散時間グラフのための統合時間追跡アルゴリズムST-GTを提案する。
- 参考スコア(独自算出の注目度): 25.730242916281224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In distributed and federated learning algorithms, communication overhead is often reduced by performing multiple local updates between communication rounds. However, due to data heterogeneity across nodes and the local gradient noise within each node, this strategy can lead to the drift of local models away from the global optimum. To address this issue, we revisit the well-known federated learning method Scaffold (Karimireddy et al., 2020) under a gradient tracking perspective, and propose a unified spatio-temporal gradient tracking algorithm, termed ST-GT, for distributed stochastic optimization over time-varying graphs. ST-GT tracks the global gradient across neighboring nodes to mitigate data heterogeneity, while maintaining a running average of local gradients to substantially suppress noise, with slightly more storage overhead. Without assuming bounded data heterogeneity, we prove that ST-GT attains a linear convergence rate for strongly convex problems and a sublinear rate for nonconvex cases. Notably, ST-GT achieves the first linear speed-up in communication complexity with respect to the number of local updates per round $τ$ for the strongly-convex setting. Compared to traditional gradient tracking methods, ST-GT reduces the topology-dependent noise term from $σ^2$ to $σ^2/τ$, where $σ^2$ denotes the noise level, thereby improving communication efficiency.
- Abstract(参考訳): 分散およびフェデレートされた学習アルゴリズムでは、通信ラウンド間で複数のローカル更新を実行することで、通信オーバーヘッドを削減できる。
しかし、ノード間のデータ不均一性と各ノード内の局所勾配ノイズにより、この戦略はグローバルな最適化から離れて局所モデルのドリフトにつながる可能性がある。
この問題に対処するために、勾配追跡の観点からScaffold(Karimireddy et al , 2020)を再検討し、時間変動グラフによる確率的分散最適化のための時空間勾配追従アルゴリズムST-GTを提案する。
ST-GTは、隣接するノード間のグローバルな勾配を追跡して、データの均一性を緩和すると同時に、ノイズを著しく抑制するローカル勾配の実行平均を維持し、ストレージオーバーヘッドをわずかに増加させる。
有界データの不均一性を仮定せずに、ST-GTが強い凸問題に対する線形収束率と非凸問題に対する線形収束率を達成することを証明した。
特にST-GTは、強い凸設定に対してラウンド$τ$あたりの局所的な更新数に関して、通信複雑性の最初の線形スピードアップを達成する。
従来の勾配追跡法と比較して、ST-GTは位相依存ノイズ項を$σ^2$から$σ^2/τ$に還元する。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations [29.642830843568525]
一般の非損失関数の大域的最小値に到達するのに、降下勾配に要する時間について検討する。
ニューラルネットワークへの応用により、我々は局所ミニマを用いた損失関数の解析の一連の改良と拡張を提供する。
論文 参考訳(メタデータ) (2025-03-20T17:54:04Z) - Distributed Learning over Arbitrary Topology: Linear Speed-Up with Polynomial Transient Time [3.1789549088190414]
本研究では, ピアツーピア通信によるローカルコスト関数の和を協調的に共有する分散学習問題について検討する。
本稿では、一般的な通信グラフから抽出した2本の木を用いて、モデルパラメータと位相パラメータの両方を分散する新しいEmph Tree PushPull-(STPP)を提案する。
論文 参考訳(メタデータ) (2025-03-20T13:11:44Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-12T15:12:17Z) - Decentralized Stochastic Proximal Gradient Descent with Variance
Reduction over Time-varying Networks [30.231314171218994]
分散学習において、ノードのネットワークは、通常、その局所的な目的の有限サムである全体的な目的関数を最小化するために協力する。
そこで本研究では,分散縮小手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
論文 参考訳(メタデータ) (2021-12-20T08:23:36Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。