論文の概要: Controlled disagreement improves generalization in decentralized training
- arxiv url: http://arxiv.org/abs/2602.02899v1
- Date: Mon, 02 Feb 2026 23:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.129202
- Title: Controlled disagreement improves generalization in decentralized training
- Title(参考訳): 制御された不一致は分散訓練における一般化を改善する
- Authors: Zesen Wang, Mikael Johansson,
- Abstract要約: 集中型トレーニングは、コンセンサスエラーが収束と一般化を損なうため、集中型トレーニングよりも劣ると見なされることが多い。
本研究は,Adaptive Consensus (DSGD-AC) を用いた分散SGDの導入により,この視点に挑戦する。
これらの誤差はランダムノイズではなく、支配的なヘッセン部分空間と体系的に一致し、フラットなミニマに向けて最適化を導く構造的摂動として機能することを証明する。
- 参考スコア(独自算出の注目度): 10.764160559530845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized training is often regarded as inferior to centralized training because the consensus errors between workers are thought to undermine convergence and generalization, even with homogeneous data distributions. This work challenges this view by introducing decentralized SGD with Adaptive Consensus (DSGD-AC), which intentionally preserves non-vanishing consensus errors through a time-dependent scaling mechanism. We prove that these errors are not random noise but systematically align with the dominant Hessian subspace, acting as structured perturbations that guide optimization toward flatter minima. Across image classification and machine translation benchmarks, DSGD-AC consistently surpasses both standard DSGD and centralized SGD in test accuracy and solution flatness. Together, these results establish consensus errors as a useful implicit regularizer and open a new perspective on the design of decentralized learning algorithms.
- Abstract(参考訳): 分散トレーニングは、労働者間のコンセンサスエラーが、均質なデータ分布であっても収束と一般化を損なうと考えられるため、集中トレーニングよりも劣ると見なされることが多い。
本研究は,DSGD-ACによる分散SGDの導入により,時間依存のスケーリング機構を通じて,意図的に非消滅的コンセンサスエラーを保存することにより,この視点に挑戦する。
これらの誤差はランダムノイズではなく、支配的なヘッセン部分空間と体系的に一致し、フラットなミニマに向けて最適化を導く構造的摂動として機能することを証明する。
画像分類と機械翻訳のベンチマークを通じて、DSGD-ACは、テスト精度とソリューション平坦性において、標準DSGDと集中型SGDの両方を一貫して上回っている。
これらの結果とともに、コンセンサスエラーを有用な暗黙正則化器として確立し、分散学習アルゴリズムの設計に関する新たな視点を開く。
関連論文リスト
- DeCAF: Decentralized Consensus-And-Factorization for Low-Rank Adaptation of Foundation Models [22.45637113673959]
Low-Rank Adaptation (LoRA)は視覚言語モデル(VLM)とLarge Language Models(LLM)を訓練するための最も効果的で、計算に難解な微調整手法の1つとして登場した。
この研究は、分散化LoRAの収束率を改善し、滑らか性を確保することにより、分散化勾配SGDの速度に適合する。
また,DLoRAとTSVDに基づく行列分解を統合し,コンセンサス干渉を解消する新しいアルゴリズムであるDeCAFを導入する。
論文 参考訳(メタデータ) (2025-05-27T16:10:53Z) - Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。