論文の概要: From PowerSGD to PowerSGD+: Low-Rank Gradient Compression for Distributed Optimization with Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2509.11254v1
- Date: Sun, 14 Sep 2025 12:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.999035
- Title: From PowerSGD to PowerSGD+: Low-Rank Gradient Compression for Distributed Optimization with Convergence Guarantees
- Title(参考訳): PowerSGDからPowerSGD+へ:収束保証を用いた分散最適化のための低ランク勾配圧縮
- Authors: Shengping Xie, Chuyan Chen, Kun Yuan,
- Abstract要約: 我々はPowerSGDが最適解に必ずしも収束しないことを示した。
プロジェクションサブスペースを定期的に更新するPowerSGD+を導入する。
我々はPowerSGD+が標準仮定の下で収束することを証明した。
- 参考スコア(独自算出の注目度): 5.818465269784876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank gradient compression methods, such as PowerSGD, have gained attention in communication-efficient distributed optimization. However, the convergence guarantees of PowerSGD remain unclear, particularly in stochastic settings. In this paper, we show that PowerSGD does not always converge to the optimal solution and provide a clear counterexample to support this finding. To address this, we introduce PowerSGD+, which periodically updates the projection subspace via singular value decomposition, ensuring that it remains aligned with the optimal subspace. We prove that PowerSGD+ converges under standard assumptions and validate its effectiveness through empirical evaluation on large language model tasks.
- Abstract(参考訳): PowerSGDのような低ランク勾配圧縮法は、通信効率のよい分散最適化に注目されている。
しかし、PowerSGDの収束保証は、特に確率的設定では不明確である。
本稿では,PowerSGDが常に最適解に収束するわけではないことを示し,この発見を支援するための明確な反例を提供する。
これを解決するためにPowerSGD+を導入し、特異値分解によってプロジェクション部分空間を定期的に更新し、最適な部分空間と整合性を保つ。
本稿では,PowerSGD+が標準前提の下で収束し,大規模言語モデルタスクに対する経験的評価によりその有効性を検証する。
関連論文リスト
- Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [5.5165579223151795]
ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示す。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Differentially Private SGD Without Clipping Bias: An Error-Feedback Approach [62.000948039914135]
Differentially Private Gradient Descent with Gradient Clipping (DPSGD-GC) を使用して、差分プライバシ(DP)がモデルパフォーマンス劣化の犠牲となることを保証する。
DPSGD-GCに代わる新しいエラーフィードバック(EF)DPアルゴリズムを提案する。
提案アルゴリズムに対するアルゴリズム固有のDP解析を確立し,R'enyi DPに基づくプライバシ保証を提供する。
論文 参考訳(メタデータ) (2023-11-24T17:56:44Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Differentially Private SGDA for Minimax Problems [83.57322009102973]
本研究は, 勾配勾配降下上昇(SGDA)が原始二重集団リスクの弱さの観点から最適に有効であることを示す。
これは、非滑らかで強固なコンケーブ設定において、初めて知られている結果である。
論文 参考訳(メタデータ) (2022-01-22T13:05:39Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Linearly Converging Error Compensated SGD [11.436753102510647]
本稿では、任意の圧縮と遅延更新を伴う分散SGDの変種を統一的に解析する。
我々のフレームワークは、量子化されたSGD、ErrorCompensated SGD、SGDの様々な変種をカバーするのに十分である。
我々は、分散還元や任意のサンプリングと誤りフィードバックと量子化を組み合わせたSGDの新しい変種を開発する。
論文 参考訳(メタデータ) (2020-10-23T10:46:31Z) - An improved convergence analysis for decentralized online stochastic
non-convex optimization [17.386715847732468]
本稿では,GT-Loakjasiewics(GT-Loakjasiewics)と呼ばれる手法が,GT-Loakjasiewics(GT-Loakjasiewics)が現在の収束率を満たすことを示す。
結果はすぐに適用できるだけでなく、現在知られている最高の収束率にも適用できる。
論文 参考訳(メタデータ) (2020-08-10T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。