論文の概要: Improve Generalization Ability of Deep Wide Residual Network with A
Suitable Scaling Factor
- arxiv url: http://arxiv.org/abs/2403.04545v1
- Date: Thu, 7 Mar 2024 14:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:43:07.578144
- Title: Improve Generalization Ability of Deep Wide Residual Network with A
Suitable Scaling Factor
- Title(参考訳): スケーリング係数に適したディープワイド残差ネットワークの一般化能力の向上
- Authors: Songtao Tian, Zixiong Yu
- Abstract要約: 例えば、$alpha$ が定数であれば、Residual Neural Kernel (RNTK) によって誘導される関数のクラスは、深さが無限大になるため、学習できないことを示す。
また, 深度$L$の増加とともに$alpha$の減少を許しても, 脱生現象は発生しうる, 驚くべき現象も強調する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Residual Neural Networks (ResNets) have demonstrated remarkable success
across a wide range of real-world applications. In this paper, we identify a
suitable scaling factor (denoted by $\alpha$) on the residual branch of deep
wide ResNets to achieve good generalization ability. We show that if $\alpha$
is a constant, the class of functions induced by Residual Neural Tangent Kernel
(RNTK) is asymptotically not learnable, as the depth goes to infinity. We also
highlight a surprising phenomenon: even if we allow $\alpha$ to decrease with
increasing depth $L$, the degeneration phenomenon may still occur. However,
when $\alpha$ decreases rapidly with $L$, the kernel regression with deep RNTK
with early stopping can achieve the minimax rate provided that the target
regression function falls in the reproducing kernel Hilbert space associated
with the infinite-depth RNTK. Our simulation studies on synthetic data and real
classification tasks such as MNIST, CIFAR10 and CIFAR100 support our
theoretical criteria for choosing $\alpha$.
- Abstract(参考訳): Deep Residual Neural Networks (ResNets)は、さまざまな現実世界のアプリケーションで顕著な成功を収めている。
本稿では,Deep Wide ResNets の残差分における適切なスケーリング係数 ($\alpha$) を特定し,優れた一般化能力を実現する。
例えば、$\alpha$ が定数であれば、Residual Neural Tangent Kernel (RNTK) によって誘導される関数のクラスは漸近的に学習不可能であり、深さは無限大になる。
たとえ$\alpha$ が深度$L$ の増加で減少しても、縮退現象は依然として起こるかもしれない。
しかし、$\alpha$が$L$で急速に減少すると、目標回帰関数が無限深さ RNTK に付随する再生カーネルヒルベルト空間に落ちることを仮定して、早期停止を伴う深い RNTK を持つカーネル回帰は最小値を達成することができる。
MNIST, CIFAR10, CIFAR100 などの合成データおよび実分類タスクに関するシミュレーション研究は, 条件として$\alpha$を選択することを支持する。
関連論文リスト
- Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax
Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes [7.433327915285969]
我々は,ロジスティック損失に基づいて学習した広帯域および深部ReLUニューラルネットワーク分類器の普遍的整合性を証明する。
また、ニューラルネットワークに基づく分類器が最小収束率を達成できる確率尺度のクラスに対して十分な条件を与える。
論文 参考訳(メタデータ) (2024-01-08T23:54:46Z) - Generalization Ability of Wide Residual Networks [5.699259766376014]
本稿では,ReLU アクティベーション関数を持つ $mathbbSd-1$ 上での広域残差ネットワークの一般化能力について検討する。
幅$mrightarrowinfty$のように、残余ネットワークカーネルは、残余ニューラルネットワークカーネル(RNTK)に均一に収束することを示す。
論文 参考訳(メタデータ) (2023-05-29T15:01:13Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Scalable Lipschitz Residual Networks with Convex Potential Flows [120.27516256281359]
残差ネットワーク勾配流における凸ポテンシャルを用いることで,1ドルのLipschitz変換が組み込まれていることを示す。
CIFAR-10の包括的な実験は、アーキテクチャのスケーラビリティと、証明可能な防御に$ell$のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2021-10-25T07:12:53Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Towards an Understanding of Residual Networks Using Neural Tangent
Hierarchy (NTH) [2.50686294157537]
グラディエント降下は、目的関数の無限の性質に拘わらず、ディープトレーニングネットワークの時間損失をゼロにする。
本稿では,Deep Residual Network (ResNet) を用いた有限幅ResNetに対するNTKのニューラルダイナミクスの訓練を行った。
我々の分析は、特定の神経結合構造であるResNetがその勝利の主因であることを強く示唆している。
論文 参考訳(メタデータ) (2020-07-07T18:08:16Z) - On Approximation Capabilities of ReLU Activation and Softmax Output
Layer in Neural Networks [6.852561400929072]
我々は、ReLUアクティベーション関数を用いた十分に大きなニューラルネットワークが任意の精度でL1$の任意の関数を近似できることを証明した。
また、非線形ソフトマックス出力層を用いた十分大きなニューラルネットワークは、任意の指標関数を$L1$で近似することも示している。
論文 参考訳(メタデータ) (2020-02-10T19:48:47Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。