論文の概要: Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.06986v2
- Date: Tue, 31 Oct 2023 14:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:56:39.961910
- Title: Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks
- Title(参考訳): 3層ニューラルネットワークにおける非線形特徴学習の証明可能保証
- Authors: Eshaan Nichani, Alex Damian, Jason D. Lee
- Abstract要約: 3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
- 参考スコア(独自算出の注目度): 49.808194368781095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the central questions in the theory of deep learning is to understand
how neural networks learn hierarchical features. The ability of deep networks
to extract salient features is crucial to both their outstanding generalization
ability and the modern deep learning paradigm of pretraining and finetuneing.
However, this feature learning process remains poorly understood from a
theoretical perspective, with existing analyses largely restricted to two-layer
networks. In this work we show that three-layer neural networks have provably
richer feature learning capabilities than two-layer networks. We analyze the
features learned by a three-layer network trained with layer-wise gradient
descent, and present a general purpose theorem which upper bounds the sample
complexity and width needed to achieve low test error when the target has
specific hierarchical structure. We instantiate our framework in specific
statistical learning settings -- single-index models and functions of quadratic
features -- and show that in the latter setting three-layer networks obtain a
sample complexity improvement over all existing guarantees for two-layer
networks. Crucially, this sample complexity improvement relies on the ability
of three-layer networks to efficiently learn nonlinear features. We then
establish a concrete optimization-based depth separation by constructing a
function which is efficiently learnable via gradient descent on a three-layer
network, yet cannot be learned efficiently by a two-layer network. Our work
makes progress towards understanding the provable benefit of three-layer neural
networks over two-layer networks in the feature learning regime.
- Abstract(参考訳): ディープラーニング理論における中心的な疑問の1つは、ニューラルネットワークが階層的特徴をどのように学習するかを理解することである。
有能な特徴を抽出する深層ネットワークの能力は、その卓越した一般化能力と、事前学習と微調整の近代的な深層学習パラダイムの両方に不可欠である。
しかし、この特徴学習プロセスは理論的観点からはほとんど理解されておらず、既存の分析は2層ネットワークに限られている。
本研究では,3層ニューラルネットワークが2層ネットワークよりも機能学習能力に富んでいることを示す。
階層的勾配勾配勾配を学習した3層ネットワークで得られた特徴を解析し,対象が特定の階層構造を持つ場合の試験誤差の低減に要するサンプルの複雑さと幅を上限とする汎用定理を提案する。
我々は,このフレームワークを,特定の統計的学習環境(単一インデックスモデルと二次特徴関数)でインスタンス化し,後者の設定では,2層ネットワークに対する既存の保証すべてに対して,より複雑なサンプルが得られることを示す。
このサンプルの複雑さの改善は、3層ネットワークが非線形特徴を効率的に学習する能力に依存している。
次に,3層ネットワーク上で勾配降下により効率的に学習できるが,2層ネットワークでは効率的に学習できない関数を構築することにより,具体的最適化に基づく深さ分離を実現する。
我々の研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能な利点を理解するために前進している。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Deep Dependency Networks for Multi-Label Classification [24.24496964886951]
マルコフ確率場とニューラルネットワークを組み合わせた従来の手法の性能は、わずかに改善できることを示す。
我々は、依存性ネットワークを拡張するディープ依存ネットワークと呼ばれる新しいモデリングフレームワークを提案する。
単純さにもかかわらず、この新しいアーキテクチャを共同学習することで、パフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-02-01T17:52:40Z) - Neural Network Layer Algebra: A Framework to Measure Capacity and
Compression in Deep Learning [0.0]
本稿では,(深度)ニューラルネットワークの内在特性を測定するための新しい枠組みを提案する。
畳み込みネットワークに重点を置いている間、我々のフレームワークはどんなネットワークアーキテクチャにも外挿できる。
論文 参考訳(メタデータ) (2021-07-02T13:43:53Z) - On Learnability via Gradient Method for Two-Layer ReLU Neural Networks
in Teacher-Student Setting [41.60125423028092]
教師-学生回帰モデルにおける2層ReLUネットワークについて検討する。
特定の正規化と十分な過剰パラメータ化により、学生ネットワークは降下によってパラメータを識別できることを示す。
測度空間における疎大なグローバルな性質のグローバルなミニマを解析する。
論文 参考訳(メタデータ) (2021-06-11T09:05:41Z) - Learning distinct features helps, provably [98.78384185493624]
最小二乗損失で訓練された2層ニューラルネットワークによって学習された特徴の多様性について検討する。
隠蔽層の特徴間の平均的な$L$-distanceで多様性を測定する。
論文 参考訳(メタデータ) (2021-06-10T19:14:45Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。
結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文 参考訳(メタデータ) (2020-06-22T12:46:44Z) - A Rigorous Framework for the Mean Field Limit of Multilayer Neural
Networks [9.89901717499058]
ニューラルネットワークを平均場に埋め込むための数学的に厳密なフレームワークを開発する。
ネットワークの幅が大きくなるにつれて、ネットワークの学習軌道は制限によってうまく捉えられることが示される。
我々は、大幅多層ネットワークのいくつかの特性を証明した。
論文 参考訳(メタデータ) (2020-01-30T16:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。