論文の概要: Robustness to Unbounded Smoothness of Generalized SignSGD
- arxiv url: http://arxiv.org/abs/2208.11195v1
- Date: Tue, 23 Aug 2022 21:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:20:50.313764
- Title: Robustness to Unbounded Smoothness of Generalized SignSGD
- Title(参考訳): 一般化符号SGDの非有界滑らか性に対するロバスト性
- Authors: Michael Crawshaw, Mingrui Liu, Francesco Orabona, Wei Zhang, Zhenxun
Zhuang
- Abstract要約: 本稿では,SignSGD-typeおよびAdamtypeアルゴリズムの解析において,モーメントが重要な役割を果たすことを示す。
我々はこれらのアルゴリズムを一般的なタスクと比較し、他のタスクを叩きながらAdamのパフォーマンスにマッチできることを観察した。
- 参考スコア(独自算出の注目度): 25.07411035728305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional analyses in non-convex optimization typically rely on the
smoothness assumption, namely requiring the gradients to be Lipschitz. However,
recent evidence shows that this smoothness condition does not capture the
properties of some deep learning objective functions, including the ones
involving Recurrent Neural Networks and LSTMs. Instead, they satisfy a much
more relaxed condition, with potentially unbounded smoothness. Under this
relaxed assumption, it has been theoretically and empirically shown that the
gradient-clipped SGD has an advantage over the vanilla one. In this paper, we
show that clipping is not indispensable for Adam-type algorithms in tackling
such scenarios: we theoretically prove that a generalized SignSGD algorithm can
obtain similar convergence rates as SGD with clipping but does not need
explicit clipping at all. This family of algorithms on one end recovers SignSGD
and on the other end closely resembles the popular Adam algorithm. Our analysis
underlines the critical role that momentum plays in analyzing SignSGD-type and
Adam-type algorithms: it not only reduces the effects of noise, thus removing
the need for large mini-batch in previous analyses of SignSGD-type algorithms,
but it also substantially reduces the effects of unbounded smoothness and
gradient norms. We also compare these algorithms with popular optimizers on a
set of deep learning tasks, observing that we can match the performance of Adam
while beating the others.
- Abstract(参考訳): 非凸最適化の伝統的な解析は、典型的には滑らかさの仮定、すなわち勾配がリプシッツである必要がある。
しかし、最近の証拠は、この滑らかさ条件が、リカレントニューラルネットワークやLSTMなどを含む深層学習目的関数の特性を捉えていないことを示している。
その代わり、よりリラックスした条件を満たすことができ、潜在的に非有界な滑らかさを持つ。
この緩和された仮定の下で、勾配傾斜したsgdはバニラよりも有利であることが理論的に実証的に示されている。
本稿では,このようなシナリオに取り組む場合,アダム型アルゴリズムではクリッピングは必須ではないことを示す: 一般化されたsignsgdアルゴリズムが,クリップングによるsgdと同様の収束率が得られるが,明示的なクリッピングは必要ないことを理論的に証明する。
このアルゴリズムはSignSGDを復元し、一方のアルゴリズムは人気のあるAdamアルゴリズムによく似ている。
我々は,SignSGD型アルゴリズムとAdam型アルゴリズムの解析において,モーメントが重要な役割を担っている。これはノイズの影響を低減させるだけでなく,従来のSignSGD型アルゴリズムでは大きなミニバッチの必要性を排除し,非有界な滑らかさと勾配ノルムの影響を著しく低減する。
また、これらのアルゴリズムを一連のディープラーニングタスクで一般的なオプティマイザと比較し、Adamのパフォーマンスに匹敵し、他を圧倒する様子を観察します。
関連論文リスト
- Random Scaling and Momentum for Non-smooth Non-convex Optimization [38.443430569753026]
ニューラルネットワークのトレーニングには、非常に不規則な、特に凸や滑らかな損失関数が必要である。
一般的なトレーニングアルゴリズムは運動量による勾配降下(SGDM)に基づいており、損失が凸あるいは滑らかである場合にのみ解析が適用される。
論文 参考訳(メタデータ) (2024-05-16T00:52:03Z) - On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Adaptive Strategies in Non-convex Optimization [5.279475826661643]
アルゴリズムは、そのようなパラメータの事前知識を必要としない場合、あるパラメータに適応すると言われている。
この論文は3つのシナリオにおける適応アルゴリズムの研究を示す。
論文 参考訳(メタデータ) (2023-06-17T06:52:05Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Non Asymptotic Bounds for Optimization via Online Multiplicative
Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。
ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。
また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文 参考訳(メタデータ) (2021-12-14T02:25:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z) - Convergence of Online Adaptive and Recurrent Optimization Algorithms [0.0]
我々は、機械学習で使用されるいくつかの顕著な降下アルゴリズムの局所収束を証明した。
我々は確率的視点ではなく「エルゴディック」を採用し、確率分布の代わりに経験的な時間平均で作業する。
論文 参考訳(メタデータ) (2020-05-12T09:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。