論文の概要: Restricted Strong Convexity of Deep Learning Models with Smooth
Activations
- arxiv url: http://arxiv.org/abs/2209.15106v1
- Date: Thu, 29 Sep 2022 21:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:35:04.122510
- Title: Restricted Strong Convexity of Deep Learning Models with Smooth
Activations
- Title(参考訳): 滑らかな活性化を伴う深層学習モデルの厳密な凸性
- Authors: Arindam Banerjee, Pedro Cisneros-Velarde, Libin Zhu, Mikhail Belkin
- Abstract要約: 本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
- 参考スコア(独自算出の注目度): 31.003601717265006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of optimization of deep learning models with smooth
activation functions. While there exist influential results on the problem from
the ``near initialization'' perspective, we shed considerable new light on the
problem. In particular, we make two key technical contributions for such models
with $L$ layers, $m$ width, and $\sigma_0^2$ initialization variance. First,
for suitable $\sigma_0^2$, we establish a $O(\frac{\text{poly}(L)}{\sqrt{m}})$
upper bound on the spectral norm of the Hessian of such models, considerably
sharpening prior results. Second, we introduce a new analysis of optimization
based on Restricted Strong Convexity (RSC) which holds as long as the squared
norm of the average gradient of predictors is
$\Omega(\frac{\text{poly}(L)}{\sqrt{m}})$ for the square loss. We also present
results for more general losses. The RSC based analysis does not need the
``near initialization" perspective and guarantees geometric convergence for
gradient descent (GD). To the best of our knowledge, ours is the first result
on establishing geometric convergence of GD based on RSC for deep learning
models, thus becoming an alternative sufficient condition for convergence that
does not depend on the widely-used Neural Tangent Kernel (NTK). We share
preliminary experimental results supporting our theoretical advances.
- Abstract(参考訳): 本稿では,スムースアクティベーション機能を有する深層学習モデルの最適化の問題を考える。
初期化」の観点からは,この問題に関する影響力のある結果が存在するが,この問題に新たな光を当てた。
特に、$L$層、$m$幅、$\sigma_0^2$初期化分散を持つモデルに対して、2つの重要な技術的貢献をする。
まず、適切な$\sigma_0^2$ に対して、そのようなモデルのヘッシアンのスペクトルノルムの上界に$o(\frac{\text{poly}(l)}{\sqrt{m}})$ を定め、それ以前の結果をかなり鋭くする。
次に,予測器の平均勾配の正方形ノルムが正方形損失に対して$\omega(\frac{\text{poly}(l)}{\sqrt{m}})である限り,制限付き強凸性(rsc)に基づく最適化の新しい解析法を提案する。
より一般的な損失に対する結果も提示する。
RSC に基づく解析では `‘near initialization’ という観点は不要であり、勾配降下(GD)に対する幾何収束を保証する。
我々の知識を最大限に活用するために、我々は、深層学習モデルのためのRCCに基づくGDの幾何収束を確立するための最初の結果であり、広く使われているニューラルタンジェントカーネル(NTK)に依存しない収束のための代替条件となる。
理論的進歩を支える予備的な実験結果を共有する。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation [22.652143194356864]
ステップサイズが一定となる勾配勾配(SGD)アルゴリズムを用いて, 強い凸と滑らかな問題を解く問題に対処する。
得られた推定子の平均二乗誤差を$n$の反復数に対して拡張する。
我々は、この鎖が定義された重み付きワッサーシュタイン半計量に関して幾何学的にエルゴード的であることを確証する。
論文 参考訳(メタデータ) (2024-10-07T15:02:48Z) - Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - Robust High Dimensional Expectation Maximization Algorithm via Trimmed
Hard Thresholding [24.184520829631587]
本研究では,高次元空間における任意の劣化サンプルを用いた潜在変数モデルの推定問題について検討する。
本稿では,トリミング勾配ステップを付加したトリミング予測最大化法を提案する。
アルゴリズムは汚損防止であり、幾何学的に(ほぼ)最適統計率に収束することを示す。
論文 参考訳(メタデータ) (2020-10-19T15:00:35Z) - Better Theory for SGD in the Nonconvex World [2.6397379133308214]
大規模な非最適化問題は、現代の機械学習ではユビキタスである。
我々は, 広範囲の合成ミニバッチサイズがグラディエントDescent (SG) 問題に与える影響について実験を行った。
論文 参考訳(メタデータ) (2020-02-09T09:56:06Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。