論文の概要: Implicit Sparse Regularization: The Impact of Depth and Early Stopping
- arxiv url: http://arxiv.org/abs/2108.05574v1
- Date: Thu, 12 Aug 2021 07:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:44:07.861831
- Title: Implicit Sparse Regularization: The Impact of Depth and Early Stopping
- Title(参考訳): 暗黙のスパース正規化:深さと早期停止の影響
- Authors: Jiangyuan Li, Thanh V. Nguyen, Chinmay Hegde and Raymond K. W. Wong
- Abstract要約: 勾配降下をスパースモデルに収束させるためには,早期停止が不可欠であることを示す。
我々は, 深さと早期停止の影響を特徴付けるとともに, 一般深度パラメータNに対して, 早期停止による勾配降下が極小最適スパース回復を達成することを示す。
- 参考スコア(独自算出の注目度): 35.4113861165802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the implicit bias of gradient descent for sparse
regression. We extend results on regression with quadratic parametrization,
which amounts to depth-2 diagonal linear networks, to more general depth-N
networks, under more realistic settings of noise and correlated designs. We
show that early stopping is crucial for gradient descent to converge to a
sparse model, a phenomenon that we call implicit sparse regularization. This
result is in sharp contrast to known results for noiseless and
uncorrelated-design cases. We characterize the impact of depth and early
stopping and show that for a general depth parameter N, gradient descent with
early stopping achieves minimax optimal sparse recovery with sufficiently small
initialization and step size. In particular, we show that increasing depth
enlarges the scale of working initialization and the early-stopping window,
which leads to more stable gradient paths for sparse recovery.
- Abstract(参考訳): 本稿では,スパース回帰に対する勾配降下の暗黙バイアスについて検討する。
本研究では,より現実的なノイズ設定と相関設計の下で,深さ2対角線形ネットワークの2次パラメトリゼーションによる回帰の結果を,より一般的な深さnネットワークに拡張する。
初期停止は勾配降下がスパースモデル(暗黙的スパース正規化と呼ばれる現象)に収束する上で不可欠であることを示す。
この結果は、ノイズレスおよび非相関設計の場合の既知の結果と対照的である。
我々は, 深さと早期停止の影響を特徴付けるとともに, 一般深度パラメータNに対して, 早期停止による勾配降下が, 十分に小さい初期化とステップサイズで, 最適スパース回復を達成することを示す。
特に,深度の増加は作業初期化の規模と早期停止ウィンドウを増大させ,スパース回復のためのより安定した勾配経路をもたらすことを示す。
関連論文リスト
- Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。