論文の概要: On the Limits of Momentum in Decentralized and Federated Optimization
- arxiv url: http://arxiv.org/abs/2511.20168v1
- Date: Tue, 25 Nov 2025 10:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.408641
- Title: On the Limits of Momentum in Decentralized and Federated Optimization
- Title(参考訳): 分散最適化におけるモメンタムの限界について
- Authors: Riccardo Zaccone, Sai Praneeth Karimireddy, Carlo Masone,
- Abstract要約: 連邦学習(FL)の運動量(英語版)は、統計的不均一性の影響を緩和するための解であるように見える。
我々は、循環的クライアント参加の下での運動量を分析し、それが統計的不均一性によって必然的に影響されることを理論的に証明する。
数値的な結果は理論を裏付けるものであり、深層学習実験は現実的な設定との関連性を確認している。
- 参考スコア(独自算出の注目度): 22.576390753582057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Θ\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.
- Abstract(参考訳): 最近の研究は、分散SGDを強化するための局所的な手法における運動量の利用を探求している。
特にフェデレート・ラーニング(FL)では、統計的不均一性の影響を緩和する解決策として、直感的にモーメントが現れる。
この方向の最近の進歩にもかかわらず、各ラウンドに一部の労働者しか参加しない分散化シナリオにおいて、非有界な不均一性の下での収束を保証することができるかどうかはまだ不明である。
この研究において、循環的クライアント参加の下での運動量を分析し、それが統計的不均一性によって必然的に影響されることを理論的に証明する。
SGD と同様に、ステップサイズの減少はどちらも役に立たないことを証明している: 実際、任意のスケジュールは $\left(1/t\right)$ よりも早く減少し、初期化と不均一性境界に依存する定数値に収束する。
数値的な結果は理論を裏付けるものであり、深層学習実験は現実的な設定との関連性を確認している。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise [16.12834917344859]
重球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能するはずだと広く推測されている。
重球運動量は, SGDの偏差項の加速収束率を$tildemathcalO(sqrtkappa)$で達成し, ほぼ最適収束率を達成できることを示した。
つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定で有用である。
論文 参考訳(メタデータ) (2023-12-22T09:58:39Z) - Communication-Efficient Heterogeneous Federated Learning with Generalized Heavy-Ball Momentum [19.473386008007942]
Federated Learning(FL)は、プライバシ制約のあるシナリオにおける分散データから学ぶための最先端のアプローチとして登場した。
大きな研究努力にもかかわらず、既存のアプローチは不均一性と部分的クライアントの参加による共同効果により、しばしば著しく低下する。
本稿では,GHBM(Generalized Heavy-Ball Momentum)を提案する。
ランダムな一様クライアントサンプリングにおいて,GHBMは最先端性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-30T14:17:57Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning
on Heterogeneous Data [31.933103173481964]
分散学習では、運動量を用いた簡単なアプローチが分散分散(DSGD)と運動量(DSGDm)である。
不均質運動量率であるモーメントムトラッキングは、データ分布が不均質である場合、既存の手法よりも一貫して優れる。
論文 参考訳(メタデータ) (2022-09-30T14:51:19Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。
平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。
任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2020-06-16T20:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。