論文の概要: Convergence of Gradient Descent for Recurrent Neural Networks: A
Nonasymptotic Analysis
- arxiv url: http://arxiv.org/abs/2402.12241v1
- Date: Mon, 19 Feb 2024 15:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:47:38.255692
- Title: Convergence of Gradient Descent for Recurrent Neural Networks: A
Nonasymptotic Analysis
- Title(参考訳): リカレントニューラルネットワークにおける勾配降下の収束:非漸近解析
- Authors: Semih Cayci, Atilla Eryilmaz
- Abstract要約: 我々は,動的システムの教師付き学習環境において,勾配降下を訓練した繰り返しニューラルネットワークを解析した。
我々は、$n$サンプルでトレーニングされた適切なd型リカレントニューラルネットワークが、$n$で対数的にのみスケールするネットワークサイズ$m$で最適性を達成できることを示します。
- 参考スコア(独自算出の注目度): 19.95757894913852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze recurrent neural networks trained with gradient descent in the
supervised learning setting for dynamical systems, and prove that gradient
descent can achieve optimality \emph{without} massive overparameterization. Our
in-depth nonasymptotic analysis (i) provides sharp bounds on the network size
$m$ and iteration complexity $\tau$ in terms of the sequence length $T$, sample
size $n$ and ambient dimension $d$, and (ii) identifies the significant impact
of long-term dependencies in the dynamical system on the convergence and
network width bounds characterized by a cutoff point that depends on the
Lipschitz continuity of the activation function. Remarkably, this analysis
reveals that an appropriately-initialized recurrent neural network trained with
$n$ samples can achieve optimality with a network size $m$ that scales only
logarithmically with $n$. This sharply contrasts with the prior works that
require high-order polynomial dependency of $m$ on $n$ to establish strong
regularity conditions. Our results are based on an explicit characterization of
the class of dynamical systems that can be approximated and learned by
recurrent neural networks via norm-constrained transportation mappings, and
establishing local smoothness properties of the hidden state with respect to
the learnable parameters.
- Abstract(参考訳): 動的システムの教師付き学習環境において,勾配降下を訓練した繰り返しニューラルネットワークを解析し,勾配降下が超過パラメータ化の最適性を達成することを証明した。
奥行きの非漸近分析
(i)ネットワークサイズ$m$とイテレーションの複雑さ$\tau$を、シーケンス長$T$、サンプルサイズ$n$、環境次元$d$、そして、シャープなバウンドを提供する。
(II) 活性化関数のリプシッツ連続性に依存する遮断点によって特徴づけられる収束とネットワーク幅境界に対する力学系における長期依存性の有意な影響を同定する。
驚くべきことに、この分析により、n$のサンプルでトレーニングされた適切な初期化されたリカレントニューラルネットワークは、ネットワークサイズ$m$で最適性を達成できる。
これは、強い正規性条件を確立するのにm$ on $n$の高階多項式依存性を必要とする以前の作品と明確に対照的である。
この結果は,ノルム制約付き輸送マッピングを用いてニューラルネットワークによって近似および学習可能な力学系のクラスを明示的に評価し,学習可能なパラメータに関して隠れ状態の局所的滑らかさ特性を確立することに基づく。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-04-07T08:07:02Z) - On Excess Risk Convergence Rates of Neural Network Classifiers [8.329456268842227]
本稿では,ニューラルネットワークを用いた2値分類におけるプラグイン分類器の性能を,その過大なリスクによって測定した。
ニューラルネットワークの推定と近似特性を分析し,次元自由で均一な収束率を求める。
論文 参考訳(メタデータ) (2023-09-26T17:14:10Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。