論文の概要: Neural Optimization Kernel: Towards Robust Deep Learning
- arxiv url: http://arxiv.org/abs/2106.06097v1
- Date: Fri, 11 Jun 2021 00:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:30:33.327850
- Title: Neural Optimization Kernel: Towards Robust Deep Learning
- Title(参考訳): ニューラル最適化カーネル:ロバストなディープラーニングを目指して
- Authors: Yueming Lyu, Ivor Tsang
- Abstract要約: 近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
- 参考スコア(独自算出の注目度): 13.147925376013129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show a close connection between neural networks (NN) and
kernel methods. However, most of these analyses (e.g., NTK) focus on the
influence of (infinite) width instead of the depth of NN models. There remains
a gap between theory and practical network designs that benefit from the depth.
This paper first proposes a novel kernel family named Neural Optimization
Kernel (NOK). Our kernel is defined as the inner product between two $T$-step
updated functionals in RKHS w.r.t. a regularized optimization problem.
Theoretically, we proved the monotonic descent property of our update rule for
both convex and non-convex problems, and a $O(1/T)$ convergence rate of our
updates for convex problems. Moreover, we propose a data-dependent structured
approximation of our NOK, which builds the connection between training deep NNs
and kernel methods associated with NOK. The resultant computational graph is a
ResNet-type finite width NN. Our structured approximation preserved the
monotonic descent property and $O(1/T)$ convergence rate. Namely, a $T$-layer
NN performs $T$-step monotonic descent updates. Notably, we show our
$T$-layered structured NN with ReLU maintains a $O(1/T)$ convergence rate
w.r.t. a convex regularized problem, which explains the success of ReLU on
training deep NN from a NN architecture optimization perspective. For the
unsupervised learning and the shared parameter case, we show the equivalence of
training structured NN with GD and performing functional gradient descent in
RKHS associated with a fixed (data-dependent) NOK at an infinity-width regime.
For finite NOKs, we prove generalization bounds. Remarkably, we show that
overparameterized deep NN (NOK) can increase the expressive power to reduce
empirical risk and reduce the generalization bound at the same time. Extensive
experiments verify the robustness of our structured NOK blocks.
- Abstract(参考訳): 最近の研究では、ニューラルネットワーク(NN)とカーネルメソッドの密接な関係が示されている。
しかし、これらの分析(NTKなど)のほとんどは、NNモデルの深さではなく、幅の影響に焦点を当てている。
深みの恩恵を受ける理論と実践的なネットワーク設計の間にはまだギャップがある。
本稿ではまず,ニューラル最適化カーネル(NOK)と呼ばれる新しいカーネルファミリーを提案する。
我々のカーネルは RKHS w.r.t の 2 つの $T$-step 更新関数の内積として定義される。
正規化最適化問題。
理論的には、凸問題と非凸問題の両方に対する更新則の単調降下特性と、凸問題に対する更新のO(1/T)$収束率を証明した。
さらに,NOKに関連付けられた深層NNとカーネルメソッドとの接続を構築するため,NOKのデータ依存構造近似を提案する。
結果計算グラフは、resnet型有限幅nnである。
構造近似は単調降下特性と$o(1/t)$収束率を維持した。
すなわち、$T$-layer NNは、$T$-step monotonic descent updateを実行する。
特に、ReLUによる$T$層構造NNは$O(1/T)$収束率w.r.tを維持している。
NNアーキテクチャ最適化の観点から、ディープNNのトレーニングにおけるReLUの成功を説明する凸正規化問題である。
教師なし学習と共有パラメータの場合、GDとトレーニング構造化NNの等価性を示し、無限幅における固定(データ依存)NOKに関連するRKHSの関数勾配降下を行う。
有限NOKに対して、一般化境界を証明する。
特筆すべきは,過剰パラメータの深層nn (nok) が表現力を高め,経験的リスクを低減し,同時に束縛された一般化を低減できることである。
大規模実験により構造されたNOKブロックのロバスト性を検証した。
関連論文リスト
- Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods [0.0]
我々はBrownian Kernel Neural Network (BKerNN) と呼ばれる推定器の効率的な手法を提案する。
BKerNNの予測リスクは、O(min((d/n)1/2, n-1/6)$(対数因子まで)の明示的な高い確率で最小限のリスクに収束することを示す。
論文 参考訳(メタデータ) (2024-07-24T13:46:50Z) - Neural Networks for Singular Perturbations [0.0]
特異摂動楕円型二点境界値問題のモデルクラスの解集合に対する表現率境界を証明した。
我々は, NNサイズの観点から, ソボレフノルムの表現速度境界を定めている。
論文 参考訳(メタデータ) (2024-01-12T16:02:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural tangent kernel analysis of shallow $\alpha$-Stable ReLU neural
networks [8.000374471991247]
ガウスNNを一般化した$alpha$-Stable NNの問題を考察する。
ReLU関数を持つ浅い$alpha$-Stable NNに対して、NNの幅が無限大であれば、再スケールした NN は $alpha$-Stable プロセスに弱収束することを示す。
我々の主な貢献は、浅い$alpha$-Stable ReLU-NNのNTK分析であり、これは再スケールNNのトレーニングと$(alpha/)のカーネル回帰の実行の等価性をもたらす。
論文 参考訳(メタデータ) (2022-06-16T10:28:03Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive? [16.105097124039602]
古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を研究する。
私たちの研究は、なぜ深さが重要なのか、そしてNNがカーネルメソッドよりも強力であるかについて、新たな光を当てています。
論文 参考訳(メタデータ) (2022-04-20T17:55:16Z) - Neural Contextual Bandits without Regret [47.73483756447701]
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。
我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
論文 参考訳(メタデータ) (2021-07-07T11:11:34Z) - Weighted Neural Tangent Kernel: A Generalized and Improved
Network-Induced Kernel [20.84988773171639]
Neural Tangent Kernel(NTK)は、勾配降下によって訓練された過剰パラメーターニューラルネットワーク(NN)の進化を記述することで、近年、激しい研究を惹きつけている。
Weighted Neural Tangent Kernel (WNTK) は、一般化された改良されたツールであり、異なる勾配の下でパラメータ化されたNNのトレーニングダイナミクスをキャプチャすることができる。
提案する重み更新アルゴリズムでは,実験値と解析値の両方が,数値実験において対応するntkを上回っている。
論文 参考訳(メタデータ) (2021-03-22T03:16:20Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。