論文の概要: Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods
- arxiv url: http://arxiv.org/abs/2205.14818v1
- Date: Mon, 30 May 2022 02:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:06:41.446731
- Title: Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods
- Title(参考訳): 教師学生設定における2層ReLUニューラルネットワークの過剰リスクとカーネル法への優越性
- Authors: Shunta Akiyama, Taiji Suzuki
- Abstract要約: 教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
- 参考スコア(独自算出の注目度): 58.44819696433327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning has outperformed other methods for various tasks,
theoretical frameworks that explain its reason have not been fully established.
To address this issue, we investigate the excess risk of two-layer ReLU neural
networks in a teacher-student regression model, in which a student network
learns an unknown teacher network through its outputs. Especially, we consider
the student network that has the same width as the teacher network and is
trained in two phases: first by noisy gradient descent and then by the vanilla
gradient descent. Our result shows that the student network provably reaches a
near-global optimal solution and outperforms any kernel methods estimator (more
generally, linear estimators), including neural tangent kernel approach, random
feature model, and other kernel methods, in a sense of the minimax optimal
rate. The key concept inducing this superiority is the non-convexity of the
neural network models. Even though the loss landscape is highly non-convex, the
student network adaptively learns the teacher neurons.
- Abstract(参考訳): 深層学習は様々なタスクにおいて他の手法よりも優れているが、その理由を説明する理論的枠組みは確立されていない。
そこで本研究では,教師・生徒回帰モデルにおける2層reluニューラルネットワークの過剰リスクについて検討し,その出力から未知の教師ネットワークを学習する。
特に,教師ネットワークと同じ幅の学生ネットワークを,まず雑音勾配降下,次にバニラ勾配降下の2段階で学習する。
この結果から,学生ネットワークは極小値の最適解に到達し,ニューラルタンジェントカーネルアプローチ,ランダム特徴モデル,その他のカーネルメソッドを含む,任意のカーネルメソッド推定器(より一般的には線形推定器)より優れた性能を示すことがわかった。
この優位性をもたらす重要な概念は、ニューラルネットワークモデルの非凸性である。
ロスランドスケープは非常に非凸であるにもかかわらず、学生ネットワークは教師ニューロンを適応的に学習する。
関連論文リスト
- Infinite Width Limits of Self Supervised Neural Networks [6.178817969919849]
NTKと自己教師型学習のギャップを埋め、Barlow Twinsの損失下で訓練された2層ニューラルネットワークに焦点を当てる。
ネットワークの幅が無限大に近づくと、バーロウ・ツインズのNTKは確かに一定となる。
論文 参考訳(メタデータ) (2024-11-17T21:13:57Z) - Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models [13.283281356356161]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する調査結果をレビューする。
ニューラルネットワークが、目に見えないデータでうまく一般化できるソリューションを見つける方法に答えようとする論文」をレビューする。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Multi-Grade Deep Learning [3.0069322256338906]
現在のディープラーニングモデルは、シングルグレードのニューラルネットワークである。
本稿では,より効率的かつ効率的に深層ニューラルネットワークを学習できるマルチグレード学習モデルを提案する。
論文 参考訳(メタデータ) (2023-02-01T00:09:56Z) - On Learnability via Gradient Method for Two-Layer ReLU Neural Networks
in Teacher-Student Setting [41.60125423028092]
教師-学生回帰モデルにおける2層ReLUネットワークについて検討する。
特定の正規化と十分な過剰パラメータ化により、学生ネットワークは降下によってパラメータを識別できることを示す。
測度空間における疎大なグローバルな性質のグローバルなミニマを解析する。
論文 参考訳(メタデータ) (2021-06-11T09:05:41Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。