論文の概要: Unveiling the Power of Multiple Gossip Steps: A Stability-Based Generalization Analysis in Decentralized Training
- arxiv url: http://arxiv.org/abs/2510.07980v1
- Date: Thu, 09 Oct 2025 09:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.98068
- Title: Unveiling the Power of Multiple Gossip Steps: A Stability-Based Generalization Analysis in Decentralized Training
- Title(参考訳): 複数のゴシップステップのパワーを解放する:分散学習における安定性に基づく一般化分析
- Authors: Qinglun Li, Yingqi Liu, Miao Zhang, Xiaochun Cao, Quanjun Yin, Li Shen,
- Abstract要約: 分散トレーニングは集中型サーバを取り除き、通信効率が向上し、トレーニング効率が大幅に向上するが、集中型トレーニングに比べてパフォーマンスが低下することが多い。
MultiGossip Steps (MGS) は、分散トレーニングと集中トレーニングの間に、シンプルだが効果的なブリッジとして機能する。
- 参考スコア(独自算出の注目度): 64.84977068837371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized training removes the centralized server, making it a communication-efficient approach that can significantly improve training efficiency, but it often suffers from degraded performance compared to centralized training. Multi-Gossip Steps (MGS) serve as a simple yet effective bridge between decentralized and centralized training, significantly reducing experiment performance gaps. However, the theoretical reasons for its effectiveness and whether this gap can be fully eliminated by MGS remain open questions. In this paper, we derive upper bounds on the generalization error and excess error of MGS using stability analysis, systematically answering these two key questions. 1). Optimization Error Reduction: MGS reduces the optimization error bound at an exponential rate, thereby exponentially tightening the generalization error bound and enabling convergence to better solutions. 2). Gap to Centralization: Even as MGS approaches infinity, a non-negligible gap in generalization error remains compared to centralized mini-batch SGD ($\mathcal{O}(T^{\frac{c\beta}{c\beta +1}}/{n m})$ in centralized and $\mathcal{O}(T^{\frac{2c\beta}{2c\beta +2}}/{n m^{\frac{1}{2c\beta +2}}})$ in decentralized). Furthermore, we provide the first unified analysis of how factors like learning rate, data heterogeneity, node count, per-node sample size, and communication topology impact the generalization of MGS under non-convex settings without the bounded gradients assumption, filling a critical theoretical gap in decentralized training. Finally, promising experiments on CIFAR datasets support our theoretical findings.
- Abstract(参考訳): 分散トレーニングは集中型サーバを取り除き、通信効率が向上し、トレーニング効率が大幅に向上するが、集中型トレーニングに比べてパフォーマンスが低下することが多い。
マルチゴシップステップ(MGS)は、分散トレーニングと集中トレーニングの間の単純な効果的なブリッジとして機能し、実験性能のギャップを著しく減らします。
しかし、その効果の理論的理由とこのギャップが MGS によって完全に排除できるかどうかについては未解決のままである。
本稿では、安定性解析を用いて、MGSの一般化誤差と過剰誤差の上限を導出し、これらの2つの重要な疑問に体系的に答える。
1)。
最適化誤差低減: MGSは指数率で制限された最適化誤差を減らし、一般化誤差境界を指数関数的に強化し、より良い解への収束を可能にする。
2)。
集中化へのギャップ MGS が無限大に近づいたとしても、一般化誤差の非無視的ギャップは、中央集権的ミニバッチ SGD ($\mathcal{O}(T^{\frac{c\beta}{c\beta +1}}/{n m})$ 中央集権的および$\mathcal{O}(T^{\frac{2c\beta}{2c\beta +2}}/{n m^{\frac{1}{2c\beta +2}}})$ に比較される。
さらに,学習率,データ不均一性,ノード数,ノード単位のサンプルサイズ,通信トポロジといった要因が,非凸条件下でのMGSの一般化にどのように影響するかを,有界勾配を仮定せずに解析し,分散化トレーニングにおいて重要な理論的ギャップを埋める。
最後に、CIFARデータセットに関する有望な実験は、我々の理論的な結果を支持する。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - A Communication and Computation Efficient Fully First-order Method for Decentralized Bilevel Optimization [16.020878731214083]
本稿では,分散バイレベル最適化のための完全一階分散手法である$textC2$DFBを提案する。
$textC2$DFBは計算効率と通信効率の両方です。
論文 参考訳(メタデータ) (2024-10-18T02:00:45Z) - Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - A Communication-efficient Algorithm with Linear Convergence for
Federated Minimax Learning [1.713291434132985]
GAN(Geneimation Adversarial Networks)をモデル化した大規模マルチエージェントミニマックス最適化問題について検討する。
全体的な目的は、エージェントのプライベートなローカルな目的関数の総和である。
我々は,FedGDA-GTが,大域的な$epsilon GDA解に一定のステップサイズで線形収束することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:31:16Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。