論文の概要: Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks
- arxiv url: http://arxiv.org/abs/2209.09298v1
- Date: Mon, 19 Sep 2022 18:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:52:59.809334
- Title: Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks
- Title(参考訳): 浅層ニューラルネットワークの勾配解析の安定性と一般化解析
- Authors: Yunwen Lei, Rong Jin, Yiming Ying
- Abstract要約: 本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
- 参考スコア(独自算出の注目度): 59.142826407441106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While significant theoretical progress has been achieved, unveiling the
generalization mystery of overparameterized neural networks still remains
largely elusive. In this paper, we study the generalization behavior of shallow
neural networks (SNNs) by leveraging the concept of algorithmic stability. We
consider gradient descent (GD) and stochastic gradient descent (SGD) to train
SNNs, for both of which we develop consistent excess risk bounds by balancing
the optimization and generalization via early-stopping. As compared to existing
analysis on GD, our new analysis requires a relaxed overparameterization
assumption and also applies to SGD. The key for the improvement is a better
estimation of the smallest eigenvalues of the Hessian matrices of the empirical
risks and the loss function along the trajectories of GD and SGD by providing a
refined estimation of their iterates.
- Abstract(参考訳): 理論的な進歩は著しいが、過度にパラメータ化されたニューラルネットワークの一般化ミステリーが明らかにされている。
本稿では,アルゴリズム安定性の概念を利用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
勾配降下 (gd) と確率勾配降下 (sgd) をsnsを訓練するために考慮し, どちらも早期停止による最適化と一般化のバランスをとることによって, 一貫した過大なリスク境界を発達させる。
GDの既存解析と比較して、我々の新しい分析は緩和された過パラメータ化仮定を必要とし、またSGDにも適用する。
改良の鍵となるのは、経験的リスクのヘッセン行列の最小固有値と、GDとSGDの軌道に沿った損失関数をより正確に推定することである。
関連論文リスト
- Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Network [57.06026574261203]
長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
この結果は、グラディエント・Descentがある種のバランス性を維持するために努力していることを示す力学的な特徴に依拠している。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [2.204918347869259]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - Stability & Generalisation of Gradient Descent for Shallow Neural
Networks without the Neural Tangent Kernel [19.4934492061353]
我々はニューラル・タンジェント・カーネル(NTK)やポリアック・ロジャシエヴィチ(PL)の仮定を使わずに新しい一般化と過剰なリスク境界を証明した。
本稿では,GDの一般化と過剰リスクが,初期化から最も短いGD経路を持つ補間ネットワークによって制御されていることを示すオラクル型境界を示す。
NTKに基づくほとんどの分析とは異なり、ラベルノイズによる回帰に注目し、早期停止を伴うGDが一貫したことを示す。
論文 参考訳(メタデータ) (2021-07-27T10:53:15Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。