論文の概要: On the Provable Generalization of Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2109.14142v1
- Date: Wed, 29 Sep 2021 02:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 15:01:56.820370
- Title: On the Provable Generalization of Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークの確率的一般化について
- Authors: Lifu Wang, Bo Shen, Bo Hu, Xing Cao
- Abstract要約: リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析
正規化条件を使わずに関数を学習する一般化誤差を証明した。
また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
- 参考スコア(独自算出の注目度): 7.115768009778412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent Neural Network (RNN) is a fundamental structure in deep learning.
Recently, some works study the training process of over-parameterized neural
networks, and show that over-parameterized networks can learn functions in some
notable concept classes with a provable generalization error bound. In this
paper, we analyze the training and generalization for RNNs with random
initialization, and provide the following improvements over recent works:
1) For a RNN with input sequence $x=(X_1,X_2,...,X_L)$, previous works study
to learn functions that are summation of $f(\beta^T_lX_l)$ and require
normalized conditions that $||X_l||\leq\epsilon$ with some very small
$\epsilon$ depending on the complexity of $f$. In this paper, using detailed
analysis about the neural tangent kernel matrix, we prove a generalization
error bound to learn such functions without normalized conditions and show that
some notable concept classes are learnable with the numbers of iterations and
samples scaling almost-polynomially in the input length $L$.
2) Moreover, we prove a novel result to learn N-variables functions of input
sequence with the form $f(\beta^T[X_{l_1},...,X_{l_N}])$, which do not belong
to the ``additive'' concept class, i,e., the summation of function $f(X_l)$.
And we show that when either $N$ or $l_0=\max(l_1,..,l_N)-\min(l_1,..,l_N)$ is
small, $f(\beta^T[X_{l_1},...,X_{l_N}])$ will be learnable with the number
iterations and samples scaling almost-polynomially in the input length $L$.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)はディープラーニングの基本構造である。
近年,過パラメータ化ニューラルネットワークの学習過程を研究対象とし,過パラメータ化ネットワークが証明可能な一般化誤差境界を用いて,いくつかの注目すべき概念クラスで関数を学習できることを実証した。
本稿では、ランダム初期化を伴うRNNのトレーニングと一般化を解析し、最近の研究に対して次のような改善を加えている。 1) 入力シーケンス$x=(X_1,X_2,...,X_L)$に対して、以前の研究は、$f(\beta^T_lX_l)$の和である関数を学習し、||X_l||\leq\epsilon$の正規化条件を必要とする。
本稿では,神経接核行列の詳細な解析を用いて,正規化条件を伴わない関数を学習するための一般化誤差を証明し,いくつかの注目すべき概念クラスが,入力長$l$でほぼ多項的にスケーリングする反復数とサンプル数で学習可能であることを示す。
さらに,$f(\beta^t[x_{l_1},...,x_{l_n}]) という形で入力列の n-変数関数を学習する新たな結果を証明した。
関数 $f(X_l)$ の和。
また、$n$ または $l_0=\max(l_1,..,l_n)-\min(l_1,..,l_n)$ が小さい場合、$f(\beta^t[x_{l_1},...,x_{l_n}])$ は、入力長$l$ でほぼ多義的にスケーリングするサンプルと数反復で学習可能である。
関連論文リスト
- Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Most Neural Networks Are Almost Learnable [52.40331776572531]
固定された$epsilon>0$とdeep $i$に対して、深さ$i$のランダムなXavierネットワークを学習するポリ時間アルゴリズムが存在することを示す。
このアルゴリズムは時間とサンプルの複雑さが$(bard)mathrmpoly(epsilon-1)$であり、$bar d$はネットワークのサイズである。
シグモイドやReLU様の活性化の場合、境界は$(bard)mathrmpolylog(eps)に改善できる。
論文 参考訳(メタデータ) (2023-05-25T22:27:42Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Generalization Ability of Wide Neural Networks on $\mathbb{R}$ [8.508360765158326]
広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。
$i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
論文 参考訳(メタデータ) (2023-02-12T15:07:27Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - Shuffling Recurrent Neural Networks [97.72614340294547]
隠れ状態 $h_t$ を以前の隠れ状態 $h_t-1$ のベクトル要素を置換することにより、隠れ状態 $h_t$ が得られる新しいリカレントニューラルネットワークモデルを提案する。
私たちのモデルでは、予測は第2の学習関数によって与えられ、隠された状態 $s(h_t)$ に適用されます。
論文 参考訳(メタデータ) (2020-07-14T19:36:10Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。