論文の概要: On the Interaction of Noise, Compression Role, and Adaptivity under $(L_0, L_1)$-Smoothness: An SDE-based Approach
- arxiv url: http://arxiv.org/abs/2506.00181v1
- Date: Fri, 30 May 2025 19:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.484919
- Title: On the Interaction of Noise, Compression Role, and Adaptivity under $(L_0, L_1)$-Smoothness: An SDE-based Approach
- Title(参考訳): L_0, L_1)$-Smoothnessの雑音, 圧縮の役割, 適応性の相互作用について: SDEに基づくアプローチ
- Authors: Enea Monzio Compagnoni, Rustem Islamov, Antonio Orvieto, Eduard Gorbunov,
- Abstract要約: 本研究では分散SGD,分散圧縮SGD,分散署名SGDのダイナミクスについて検討する。
我々の分析は、バッチノイズ、勾配圧縮、適応性の間の複雑な相互作用に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 20.77655203511758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using stochastic differential equation (SDE) approximations, we study the dynamics of Distributed SGD, Distributed Compressed SGD, and Distributed SignSGD under $(L_0,L_1)$-smoothness and flexible noise assumptions. Our analysis provides insights -- which we validate through simulation -- into the intricate interactions between batch noise, stochastic gradient compression, and adaptivity in this modern theoretical setup. For instance, we show that \textit{adaptive} methods such as Distributed SignSGD can successfully converge under standard assumptions on the learning rate scheduler, even under heavy-tailed noise. On the contrary, Distributed (Compressed) SGD with pre-scheduled decaying learning rate fails to achieve convergence, unless such a schedule also accounts for an inverse dependency on the gradient norm -- de facto falling back into an adaptive method.
- Abstract(参考訳): 確率微分方程式(SDE)近似を用いて,分散SGD,分散圧縮SGD,分散SignSGDの力学を,(L_0,L_1)$-smoothnessおよびフレキシブルノイズ仮定の下で研究する。
私たちの分析は、バッチノイズ、確率勾配圧縮、適応性の間の複雑な相互作用に関する、シミュレーションを通じて検証した洞察を提供する。
例えば、Distributed SignSGD のような \textit{adaptive} メソッドは、重み付き雑音下であっても、学習速度スケジューラの標準仮定の下でうまく収束可能であることを示す。
それとは対照的に、事前スケジュールされた減衰学習率を持つ分散(圧縮)SGDは、勾配ノルムへの逆依存も考慮しない限り、収束を達成できない。
関連論文リスト
- Unbiased and Sign Compression in Distributed Learning: Comparing Noise Resilience via SDEs [2.218667838700643]
大規模モデルとデータセットで構成される機械学習パイプラインを扱うには、分散メソッドが不可欠だ。
言語モデルでしばしば見られる大きな重み付き勾配雑音に対する頑健さは、いまだに理解されていない。
本研究は,分散圧縮SGD (DCSGD) と分散符号SGD (DSignSGD) を微分方程式を用いて解析することにより,このギャップに対処する。
論文 参考訳(メタデータ) (2025-02-24T09:39:17Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - CoLiDE: Concomitant Linear DAG Estimation [12.415463205960156]
観測データから線形方程式への非巡回グラフ構造学習の問題に対処する。
本稿では,空間認識学習DAGのための新しい凸スコア関数を提案する。
論文 参考訳(メタデータ) (2023-10-04T15:32:27Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - $z$-SignFedAvg: A Unified Stochastic Sign-based Compression for
Federated Learning [14.363110221372274]
フェデレートラーニング(FL)は、将来性のあるプライバシ保護型分散ラーニングパラダイムである。
FLは、大規模な機械学習モデルをトレーニングする際に、高い通信コストに悩まされる。
信号ベース圧縮のための一般対称雑音分布を用いた新しい雑音摂動方式を提案する。
論文 参考訳(メタデータ) (2023-02-06T06:54:49Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。