論文の概要: Convex and Non-convex Federated Learning with Stale Stochastic Gradients: Diminishing Step Size is All You Need
- arxiv url: http://arxiv.org/abs/2603.02639v1
- Date: Tue, 03 Mar 2026 06:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.664566
- Title: Convex and Non-convex Federated Learning with Stale Stochastic Gradients: Diminishing Step Size is All You Need
- Title(参考訳): 静的確率勾配による凸と非凸のフェデレーション学習:ステップサイズを最小化すること
- Authors: Xinran Zheng, Tara Javidi, Behrouz Touri,
- Abstract要約: ローカルエージェントは、自身のデータと計算を利用して、エージェントのローカルコスト関数からなる目的を最小化するために、中央サーバを支援する。
各エージェントは、その局所的な目的の伝達バイアスと遅延推定を許される。
- 参考スコア(独自算出の注目度): 6.783562149597588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a general framework for distributed stochastic optimization under delayed gradient models. In this setting, $n$ local agents leverage their own data and computation to assist a central server in minimizing a global objective composed of agents' local cost functions. Each agent is allowed to transmit stochastic-potentially biased and delayed-estimates of its local gradient. While a prior work has advocated delay-adaptive step sizes for stochastic gradient descent (SGD) in the presence of delays, we demonstrate that a pre-chosen diminishing step size is sufficient and matches the performance of the adaptive scheme. Moreover, our analysis establishes that diminishing step sizes recover the optimal SGD rates for nonconvex and strongly convex objectives.
- Abstract(参考訳): 遅延勾配モデルに基づく分散確率最適化のための一般的なフレームワークを提案する。
この設定では、$n$のローカルエージェントは、自身のデータと計算を利用して、エージェントのローカルコスト関数からなるグローバルな目的を最小化する中央サーバを支援する。
それぞれのエージェントは確率的に偏りがあり、局所勾配の遅延推定を送信できる。
先行研究では,遅延が存在する場合の確率勾配降下(SGD)の遅延適応ステップサイズを提唱してきたが,前兆減少ステップサイズが十分であり,適応方式の性能と一致していることが実証された。
さらに, ステップサイズが小さくなると, 非凸および強凸の目標に対して最適SGDレートが回復することを示した。
関連論文リスト
- Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations [29.642830843568525]
一般の非損失関数の大域的最小値に到達するのに、降下勾配に要する時間について検討する。
ニューラルネットワークへの応用により、我々は局所ミニマを用いた損失関数の解析の一連の改良と拡張を提供する。
論文 参考訳(メタデータ) (2025-03-20T17:54:04Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Dynamically Sampled Nonlocal Gradients for Stronger Adversarial Attacks [3.055601224691843]
深層ニューラルネットワークの脆弱性は、小さな、さらには知覚不能な摂動にも影響し、ディープラーニング研究の中心的なトピックとなっている。
脆弱性防御機構として動的に動的に非局所グラディエント蛍光(DSNGD)を提案する。
DSNGDベースの攻撃は平均35%高速であり、勾配降下型攻撃よりも0.9%から27.1%高い成功率を示した。
論文 参考訳(メタデータ) (2020-11-05T08:55:24Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。