Fugu-MT 論文翻訳(概要): Gradient Normalization with(out) Clipping Ensures Convergence of Nonconvex SGD under Heavy-Tailed Noise with Improved Results

論文の概要: Gradient Normalization with(out) Clipping Ensures Convergence of Nonconvex SGD under Heavy-Tailed Noise with Improved Results

arxiv url: http://arxiv.org/abs/2410.16561v1
Date: Mon, 21 Oct 2024 22:40:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.80457
Title: Gradient Normalization with(out) Clipping Ensures Convergence of Nonconvex SGD under Heavy-Tailed Noise with Improved Results
Title（参考訳）: 重音下での非凸SGDの収束度を向上した(out)クリッピングによる勾配正規化
Authors: Tao Sun, Xinwang Liu, Kun Yuan,
Abstract要約: 本稿では,NSGDCを含まない勾配正規化(NSGDC-VR)について検討する。両アルゴリズムの理論的結果の大幅な改善について述べる。
参考スコア（独自算出の注目度）: 60.92029979853314
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper investigates Gradient Normalization Stochastic Gradient Descent without Clipping (NSGDC) and its variance reduction variant (NSGDC-VR) for nonconvex optimization under heavy-tailed noise. We present significant improvements in the theoretical results for both algorithms, including the removal of logarithmic factors from the convergence rates and the recovery of the convergence rate to match the deterministic case when the noise variance {\sigma} is zero. Additionally, we demonstrate that gradient normalization alone, assuming individual Lipschitz smoothness, is sufficient to ensure convergence of SGD under heavy-tailed noise, eliminating the need for gradient clipping. Furthermore, we introduce accelerated nonconvex algorithms that utilize second-order Lipschitz smoothness to achieve enhanced convergence rates in the presence of heavy-tailed noise. Our findings offer a deeper understanding of how gradient normalization and variance reduction techniques can be optimized for robust performance in challenging optimization scenarios.
Abstract（参考訳）: 本稿では,重み付き雑音下での非凸最適化のための傾斜正規化確率勾配Descent without Clipping (NSGDC)とその分散低減変種 (NSGDC-VR) について検討する。両アルゴリズムの理論的結果には,収束率からの対数係数の除去や収束率の回復など,ノイズ分散がゼロである場合の決定論的ケースとの整合性など,大きな改善点が示されている。さらに,個々のリプシッツの滑らかさを仮定した勾配正規化だけでは,重み付き雑音下でのSGDの収束を確保するのに十分であることを示す。さらに,2次リプシッツの滑らか性を利用して重み付き雑音の存在下での収束率の向上を実現する高速化された非凸アルゴリズムを導入する。本研究は, 最適化シナリオにおいて, 勾配正規化と分散低減技術が頑健な性能にどのように最適化できるかを, より深く理解するものである。

関連論文リスト

Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文参考訳（メタデータ） (2024-06-07T02:55:57Z)
Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文参考訳（メタデータ） (2024-05-17T21:17:27Z)
Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文参考訳（メタデータ） (2023-11-06T01:41:46Z)
Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。 SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文参考訳（メタデータ） (2023-02-15T18:53:41Z)
The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。 AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文参考訳（メタデータ） (2022-02-11T17:37:54Z)
Improving Differentially Private SGD via Randomly Sparsified Gradients [31.295035726077366]
ディファレンシャル・プライベート・グラデーション・オブザーバ(DP-SGD)は、厳密に定義されたプライバシー境界圧縮を提供するため、ディープラーニングにおいて広く採用されている。本稿では,通信コストを向上し,プライバシ境界圧縮を強化するためのRSを提案する。
論文参考訳（メタデータ） (2021-12-01T21:43:34Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
AdaL: Adaptive Gradient Transformation Contributes to Convergences and Generalizations [4.991328448898387]
元の勾配を変換したAdaLを提案する。 AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
論文参考訳（メタデータ） (2021-07-04T02:55:36Z)
Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。この場合、最先端の結果を上回る新たな複雑さが証明される。本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文参考訳（メタデータ） (2020-05-21T17:05:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。