論文の概要: Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks
- arxiv url: http://arxiv.org/abs/2209.09298v1
- Date: Mon, 19 Sep 2022 18:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:52:59.809334
- Title: Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks
- Title(参考訳): 浅層ニューラルネットワークの勾配解析の安定性と一般化解析
- Authors: Yunwen Lei, Rong Jin, Yiming Ying
- Abstract要約: 本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
- 参考スコア(独自算出の注目度): 59.142826407441106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While significant theoretical progress has been achieved, unveiling the
generalization mystery of overparameterized neural networks still remains
largely elusive. In this paper, we study the generalization behavior of shallow
neural networks (SNNs) by leveraging the concept of algorithmic stability. We
consider gradient descent (GD) and stochastic gradient descent (SGD) to train
SNNs, for both of which we develop consistent excess risk bounds by balancing
the optimization and generalization via early-stopping. As compared to existing
analysis on GD, our new analysis requires a relaxed overparameterization
assumption and also applies to SGD. The key for the improvement is a better
estimation of the smallest eigenvalues of the Hessian matrices of the empirical
risks and the loss function along the trajectories of GD and SGD by providing a
refined estimation of their iterates.
- Abstract(参考訳): 理論的な進歩は著しいが、過度にパラメータ化されたニューラルネットワークの一般化ミステリーが明らかにされている。
本稿では,アルゴリズム安定性の概念を利用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
勾配降下 (gd) と確率勾配降下 (sgd) をsnsを訓練するために考慮し, どちらも早期停止による最適化と一般化のバランスをとることによって, 一貫した過大なリスク境界を発達させる。
GDの既存解析と比較して、我々の新しい分析は緩和された過パラメータ化仮定を必要とし、またSGDにも適用する。
改良の鍵となるのは、経験的リスクのヘッセン行列の最小固有値と、GDとSGDの軌道に沿った損失関数をより正確に推定することである。
関連論文リスト
- Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks [55.86300309474023]
多層NNに対する勾配降下(GD)の総合的安定性と一般化解析を行う。
2層NNと3層NNの両方において、GDアルゴリズムに対するO(1/sqrtn)$の過剰リスク率を導出する。
論文 参考訳(メタデータ) (2023-05-26T12:51:38Z) - Neural Characteristic Activation Analysis and Geometric Parameterization for ReLU Networks [2.2713084727838115]
本稿では,個々のニューロンの特徴的活性化境界を調べることによって,ReLUネットワークのトレーニングダイナミクスを解析するための新しいアプローチを提案する。
提案手法は,コンバージェンス最適化におけるニューラルネットワークのパラメータ化と正規化において重要な不安定性を示し,高速収束を阻害し,性能を損なう。
論文 参考訳(メタデータ) (2023-05-25T10:19:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - Stability & Generalisation of Gradient Descent for Shallow Neural
Networks without the Neural Tangent Kernel [19.4934492061353]
我々はニューラル・タンジェント・カーネル(NTK)やポリアック・ロジャシエヴィチ(PL)の仮定を使わずに新しい一般化と過剰なリスク境界を証明した。
本稿では,GDの一般化と過剰リスクが,初期化から最も短いGD経路を持つ補間ネットワークによって制御されていることを示すオラクル型境界を示す。
NTKに基づくほとんどの分析とは異なり、ラベルノイズによる回帰に注目し、早期停止を伴うGDが一貫したことを示す。
論文 参考訳(メタデータ) (2021-07-27T10:53:15Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。