論文の概要: Convergence of Gradient Descent for Recurrent Neural Networks: A
Nonasymptotic Analysis
- arxiv url: http://arxiv.org/abs/2402.12241v1
- Date: Mon, 19 Feb 2024 15:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:47:38.255692
- Title: Convergence of Gradient Descent for Recurrent Neural Networks: A
Nonasymptotic Analysis
- Title(参考訳): リカレントニューラルネットワークにおける勾配降下の収束:非漸近解析
- Authors: Semih Cayci, Atilla Eryilmaz
- Abstract要約: 我々は,動的システムの教師付き学習環境において,勾配降下を訓練した繰り返しニューラルネットワークを解析した。
我々は、$n$サンプルでトレーニングされた適切なd型リカレントニューラルネットワークが、$n$で対数的にのみスケールするネットワークサイズ$m$で最適性を達成できることを示します。
- 参考スコア(独自算出の注目度): 19.95757894913852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze recurrent neural networks trained with gradient descent in the
supervised learning setting for dynamical systems, and prove that gradient
descent can achieve optimality \emph{without} massive overparameterization. Our
in-depth nonasymptotic analysis (i) provides sharp bounds on the network size
$m$ and iteration complexity $\tau$ in terms of the sequence length $T$, sample
size $n$ and ambient dimension $d$, and (ii) identifies the significant impact
of long-term dependencies in the dynamical system on the convergence and
network width bounds characterized by a cutoff point that depends on the
Lipschitz continuity of the activation function. Remarkably, this analysis
reveals that an appropriately-initialized recurrent neural network trained with
$n$ samples can achieve optimality with a network size $m$ that scales only
logarithmically with $n$. This sharply contrasts with the prior works that
require high-order polynomial dependency of $m$ on $n$ to establish strong
regularity conditions. Our results are based on an explicit characterization of
the class of dynamical systems that can be approximated and learned by
recurrent neural networks via norm-constrained transportation mappings, and
establishing local smoothness properties of the hidden state with respect to
the learnable parameters.
- Abstract(参考訳): 動的システムの教師付き学習環境において,勾配降下を訓練した繰り返しニューラルネットワークを解析し,勾配降下が超過パラメータ化の最適性を達成することを証明した。
奥行きの非漸近分析
(i)ネットワークサイズ$m$とイテレーションの複雑さ$\tau$を、シーケンス長$T$、サンプルサイズ$n$、環境次元$d$、そして、シャープなバウンドを提供する。
(II) 活性化関数のリプシッツ連続性に依存する遮断点によって特徴づけられる収束とネットワーク幅境界に対する力学系における長期依存性の有意な影響を同定する。
驚くべきことに、この分析により、n$のサンプルでトレーニングされた適切な初期化されたリカレントニューラルネットワークは、ネットワークサイズ$m$で最適性を達成できる。
これは、強い正規性条件を確立するのにm$ on $n$の高階多項式依存性を必要とする以前の作品と明確に対照的である。
この結果は,ノルム制約付き輸送マッピングを用いてニューラルネットワークによって近似および学習可能な力学系のクラスを明示的に評価し,学習可能なパラメータに関して隠れ状態の局所的滑らかさ特性を確立することに基づく。
関連論文リスト
- On Excess Risk Convergence Rates of Neural Network Classifiers [8.329456268842227]
本稿では,ニューラルネットワークを用いた2値分類におけるプラグイン分類器の性能を,その過大なリスクによって測定した。
ニューラルネットワークの推定と近似特性を分析し,次元自由で均一な収束率を求める。
論文 参考訳(メタデータ) (2023-09-26T17:14:10Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Excess risk bound for deep learning under weak dependence [0.0]
本稿では、弱い依存プロセスを学ぶためのディープニューラルネットワークについて考察する。
我々は、任意のH"古いスムーズな関数を近似するために、ディープニューラルネットワークに必要な深さ、幅、間隔を導出する。
論文 参考訳(メタデータ) (2023-02-15T07:23:48Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。