論文の概要: Rethinking SIGN Training: Provable Nonconvex Acceleration without First-
and Second-Order Gradient Lipschitz
- arxiv url: http://arxiv.org/abs/2310.14616v1
- Date: Mon, 23 Oct 2023 06:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 21:58:45.778898
- Title: Rethinking SIGN Training: Provable Nonconvex Acceleration without First-
and Second-Order Gradient Lipschitz
- Title(参考訳): SIGNトレーニングの再考:第1および第2次グラディエントリプシッツを伴わない非凸加速の可能性
- Authors: Tao Sun, Congliang Chen, Peng Qiao, Li Shen, Xinwang Liu, Dongsheng Li
- Abstract要約: 符号ベースの手法は、パラメータ更新にのみ符号情報を使用するにもかかわらず、堅牢な性能を達成する能力によって注目されている。
符号に基づく手法の現在の収束解析は、一階加速度と二階加速度の強い仮定に依存する。
本稿では,より現実的な第1次および第2次加速度の仮定の下で,それらの収束を解析する。
- 参考スコア(独自算出の注目度): 66.22095739795068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign-based stochastic methods have gained attention due to their ability to
achieve robust performance despite using only the sign information for
parameter updates. However, the current convergence analysis of sign-based
methods relies on the strong assumptions of first-order gradient Lipschitz and
second-order gradient Lipschitz, which may not hold in practical tasks like
deep neural network training that involve high non-smoothness. In this paper,
we revisit sign-based methods and analyze their convergence under more
realistic assumptions of first- and second-order smoothness. We first establish
the convergence of the sign-based method under weak first-order Lipschitz.
Motivated by the weak first-order Lipschitz, we propose a relaxed second-order
condition that still allows for nonconvex acceleration in sign-based methods.
Based on our theoretical results, we gain insights into the computational
advantages of the recently developed LION algorithm. In distributed settings,
we prove that this nonconvex acceleration persists with linear speedup in the
number of nodes, when utilizing fast communication compression gossip
protocols. The novelty of our theoretical results lies in that they are derived
under much weaker assumptions, thereby expanding the provable applicability of
sign-based algorithms to a wider range of problems.
- Abstract(参考訳): 符号に基づく確率的手法は, パラメータ更新に符号情報のみを用いるにもかかわらず, 頑健な性能を実現する能力から注目されている。
しかし、符号ベースの手法の現在の収束解析は、高非滑らか性を含むディープニューラルネットワークトレーニングのような実践的なタスクでは役に立たない一階勾配リプシッツと二階勾配リプシッツの強い仮定に依存している。
本稿では,符号に基づく手法を再検討し,その収束を,一階および二階の滑らかさのより現実的な仮定の下で解析する。
まず, 弱一階リプシッツの下で符号ベース法を収束させる。
弱一階リプシッツに動機づけられ,符号に基づく手法において非凸加速度を許容する緩和された二階条件を提案する。
理論的な結果から,最近開発したlionアルゴリズムの計算性能について知見を得た。
分散環境では、高速通信圧縮ゴシッププロトコルを利用する場合、この非凸加速度はノード数を線形に高速化することで持続する。
我々の理論結果の新規性は、それらがより弱い仮定の下で導出され、手話ベースのアルゴリズムの証明可能な適用性を幅広い問題に拡張することにある。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Revisiting and Advancing Fast Adversarial Training Through The Lens of
Bi-Level Optimization [60.72410937614299]
提案手法は,2レベルAT(FAST-BAT)と呼ばれる新しいアルゴリズムセットの設計と解析である。
FAST-BATは、グラデーションサインメソッドや明示的なロバスト正規化を呼ぶことなく、符号ベースの投射降下(PGD)攻撃を防御することができる。
論文 参考訳(メタデータ) (2021-12-23T06:25:36Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。