論文の概要: Generalization and Risk Bounds for Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2411.02784v1
- Date: Tue, 05 Nov 2024 03:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:25.332758
- Title: Generalization and Risk Bounds for Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークの一般化とリスク境界
- Authors: Xuewei Cheng, Ke Huang, Shujie Ma,
- Abstract要約: 我々は,バニラRNNに対する新しい一般化誤差を確立する。
我々は、様々な損失関数に適用可能なRademacher複雑性を計算する統一的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 3.0638061480679912
- License:
- Abstract: Recurrent Neural Networks (RNNs) have achieved great success in the prediction of sequential data. However, their theoretical studies are still lagging behind because of their complex interconnected structures. In this paper, we establish a new generalization error bound for vanilla RNNs, and provide a unified framework to calculate the Rademacher complexity that can be applied to a variety of loss functions. When the ramp loss is used, we show that our bound is tighter than the existing bounds based on the same assumptions on the Frobenius and spectral norms of the weight matrices and a few mild conditions. Our numerical results show that our new generalization bound is the tightest among all existing bounds in three public datasets. Our bound improves the second tightest one by an average percentage of 13.80% and 3.01% when the $\tanh$ and ReLU activation functions are used, respectively. Moreover, we derive a sharp estimation error bound for RNN-based estimators obtained through empirical risk minimization (ERM) in multi-class classification problems when the loss function satisfies a Bernstein condition.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)はシーケンシャルデータの予測において大きな成功を収めている。
しかし、複雑な相互接続構造のため、理論的な研究はいまだに遅れを取っている。
本稿では,バニラRNNに対する新たな一般化誤差を確立し,様々な損失関数に適用可能なRademacher複雑性を計算するための統一フレームワークを提供する。
ランプ損失を用いると、フロベニウスの仮定と重み行列のスペクトルノルムといくつかの穏やかな条件の仮定に基づいて、我々の境界が既存の境界よりも厳密であることを示す。
我々の数値的な結果は、我々の新しい一般化境界は3つの公開データセットにおいて、既存のすべての境界の中で最も厳密であることを示している。
我々のバウンダリは、それぞれ$\tanh$とReLUのアクティベーション関数を使用すると、平均13.80%と3.01%で2番目のタイトな値を改善する。
さらに、損失関数がベルンシュタイン条件を満たす場合の多クラス分類問題において、経験的リスク最小化(ERM)によって得られたRNNに基づく推定器の鋭い推定誤差を導出する。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Approximation Bounds for Recurrent Neural Networks with Application to Regression [7.723218675113336]
深部ReLUリカレントニューラルネットワーク(RNN)の近似能力について検討し,RNNを用いた非パラメトリック最小二乗回帰の収束特性について検討した。
H" の滑らかな関数に対する RNN の近似誤差の上限を導出する。
以上の結果から,RNNの性能に関する統計的保証が得られる。
論文 参考訳(メタデータ) (2024-09-09T13:02:50Z) - Polynomial-Time Solutions for ReLU Network Training: A Complexity
Classification via Max-Cut and Zonotopes [70.52097560486683]
我々は、ReLUネットワークの近似の難しさがマックス・カッツ問題の複雑さを反映しているだけでなく、特定の場合において、それと完全に一致することを証明した。
特に、$epsilonleqsqrt84/83-1approx 0.006$とすると、目的値に関して相対誤差$epsilon$でReLUネットワーク対象の近似グローバルデータセットを見つけることはNPハードであることが示される。
論文 参考訳(メタデータ) (2023-11-18T04:41:07Z) - A Theoretical Analysis of the Test Error of Finite-Rank Kernel Ridge
Regression [23.156642467474995]
有限ランクカーネルは、例えば、トレーニング済みのディープニューラルネットワークの最後の層を微調整して新しいタスクに適応するなど、いくつかの機械学習問題に自然に現れる。
我々は、任意の有限ランクKRRのKRRテスト誤差に対して、急激な非漸近上界と下界を導出することにより、このギャップに対処する。
我々の境界は、以前に導出された有限ランクKRR上の境界よりも厳密であり、同等の結果とは異なり、任意の正則化パラメータに対しても有効である。
論文 参考訳(メタデータ) (2023-10-02T08:52:29Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Generalization Bounds for Magnitude-Based Pruning via Sparse Matrix
Sketching [2.1485350418225244]
我々は、エラーが1つ、プルーニングによって引き起こされる近似、および2つのプルーニングモデルにおけるパラメータの数に依存するAroraなどの上に構築する。
破断された推定値は、高い確率で未破断された関数に近づき、第一基準を改善する。
我々は,MNISTおよびCIFAR10データセット上のReLU活性化フィードフォワードネットワークにおける新しい手法の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-05-30T07:00:06Z) - Generalization Analysis for Contrastive Representation Learning [80.89690821916653]
既存の一般化誤差境界は負の例の数$k$に線形に依存する。
対数項まで$k$に依存しないコントラスト学習のための新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2023-02-24T01:03:56Z) - A Non-Asymptotic Moreau Envelope Theory for High-Dimensional Generalized
Linear Models [33.36787620121057]
ガウス空間の任意のクラスの線型予測器を示す新しい一般化境界を証明した。
私たちは、Zhou et al. (2021) の「最適化率」を直接回復するために、有限サンプルバウンドを使用します。
ローカライズされたガウス幅を用いた有界一般化の適用は、一般に経験的リスク最小化に対してシャープであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:16:55Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。