論文の概要: On Learnability via Gradient Method for Two-Layer ReLU Neural Networks
in Teacher-Student Setting
- arxiv url: http://arxiv.org/abs/2106.06251v1
- Date: Fri, 11 Jun 2021 09:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:29:34.375657
- Title: On Learnability via Gradient Method for Two-Layer ReLU Neural Networks
in Teacher-Student Setting
- Title(参考訳): 教師学生設定における2層ReLUニューラルネットワークの勾配法による学習性について
- Authors: Shunta Akiyama and Taiji Suzuki
- Abstract要約: 教師-学生回帰モデルにおける2層ReLUネットワークについて検討する。
特定の正規化と十分な過剰パラメータ化により、学生ネットワークは降下によってパラメータを識別できることを示す。
測度空間における疎大なグローバルな性質のグローバルなミニマを解析する。
- 参考スコア(独自算出の注目度): 41.60125423028092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning empirically achieves high performance in many applications, but
its training dynamics has not been fully understood theoretically. In this
paper, we explore theoretical analysis on training two-layer ReLU neural
networks in a teacher-student regression model, in which a student network
learns an unknown teacher network through its outputs. We show that with a
specific regularization and sufficient over-parameterization, the student
network can identify the parameters of the teacher network with high
probability via gradient descent with a norm dependent stepsize even though the
objective function is highly non-convex. The key theoretical tool is the
measure representation of the neural networks and a novel application of a dual
certificate argument for sparse estimation on a measure space. We analyze the
global minima and global convergence property in the measure space.
- Abstract(参考訳): ディープラーニングは多くのアプリケーションで経験的に高い性能を達成するが、そのトレーニング力学は理論的には完全には理解されていない。
本稿では,学生ネットワークが未知の教師ネットワークを学習する教師学生の回帰モデルを用いて,2層ReLUニューラルネットワークの学習に関する理論的解析を行う。
対象関数が高度に非凸であるにもかかわらず, 正規化と十分な過剰パラメータ化により, 高確率の教師ネットワークのパラメータを, ノルム依存ステップによる勾配降下により同定できることを示す。
鍵となる理論ツールは、ニューラルネットワークの測度表現と、測度空間上のスパース推定のための双対証明引数の新しい応用である。
測度空間における大域最小値と大域収束特性を解析する。
関連論文リスト
- Fundamental limits of overparametrized shallow neural networks for
supervised learning [11.136777922498355]
本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
論文 参考訳(メタデータ) (2023-07-11T08:30:50Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Learning and Generalization in Overparameterized Normalizing Flows [13.074242275886977]
正規化フロー(NF)は教師なし学習において重要なモデルのクラスである。
既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメトリゼーションがトレーニングを損なうという理論的および実証的な証拠を提供する。
ネットワークが過度にパラメータ化されている場合、最小限の仮定の下で、制約のないNFが妥当なデータ分布を効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-19T17:11:42Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。