Fugu-MT 論文翻訳(概要): Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks

論文の概要: Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks

arxiv url: http://arxiv.org/abs/2305.06986v2
Date: Tue, 31 Oct 2023 14:58:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 02:56:39.961910
Title: Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks
Title（参考訳）: 3層ニューラルネットワークにおける非線形特徴学習の証明可能保証
Authors: Eshaan Nichani, Alex Damian, Jason D. Lee
Abstract要約: 3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
参考スコア（独自算出の注目度）: 49.808194368781095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the central questions in the theory of deep learning is to understand how neural networks learn hierarchical features. The ability of deep networks to extract salient features is crucial to both their outstanding generalization ability and the modern deep learning paradigm of pretraining and finetuneing. However, this feature learning process remains poorly understood from a theoretical perspective, with existing analyses largely restricted to two-layer networks. In this work we show that three-layer neural networks have provably richer feature learning capabilities than two-layer networks. We analyze the features learned by a three-layer network trained with layer-wise gradient descent, and present a general purpose theorem which upper bounds the sample complexity and width needed to achieve low test error when the target has specific hierarchical structure. We instantiate our framework in specific statistical learning settings -- single-index models and functions of quadratic features -- and show that in the latter setting three-layer networks obtain a sample complexity improvement over all existing guarantees for two-layer networks. Crucially, this sample complexity improvement relies on the ability of three-layer networks to efficiently learn nonlinear features. We then establish a concrete optimization-based depth separation by constructing a function which is efficiently learnable via gradient descent on a three-layer network, yet cannot be learned efficiently by a two-layer network. Our work makes progress towards understanding the provable benefit of three-layer neural networks over two-layer networks in the feature learning regime.
Abstract（参考訳）: ディープラーニング理論における中心的な疑問の1つは、ニューラルネットワークが階層的特徴をどのように学習するかを理解することである。有能な特徴を抽出する深層ネットワークの能力は、その卓越した一般化能力と、事前学習と微調整の近代的な深層学習パラダイムの両方に不可欠である。しかし、この特徴学習プロセスは理論的観点からはほとんど理解されておらず、既存の分析は2層ネットワークに限られている。本研究では,3層ニューラルネットワークが2層ネットワークよりも機能学習能力に富んでいることを示す。階層的勾配勾配勾配を学習した3層ネットワークで得られた特徴を解析し,対象が特定の階層構造を持つ場合の試験誤差の低減に要するサンプルの複雑さと幅を上限とする汎用定理を提案する。我々は,このフレームワークを,特定の統計的学習環境(単一インデックスモデルと二次特徴関数)でインスタンス化し,後者の設定では,2層ネットワークに対する既存の保証すべてに対して,より複雑なサンプルが得られることを示す。このサンプルの複雑さの改善は、3層ネットワークが非線形特徴を効率的に学習する能力に依存している。次に,3層ネットワーク上で勾配降下により効率的に学習できるが,2層ネットワークでは効率的に学習できない関数を構築することにより,具体的最適化に基づく深さ分離を実現する。我々の研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能な利点を理解するために前進している。

関連論文リスト

Convergence Analysis for Deep Sparse Coding via Convolutional Neural Networks [7.956678963695681]
スパースコーディングとディープラーニングの交差点を探索し,特徴抽出能力の理解を深める。我々は、畳み込みニューラルネットワーク(CNN)のスパース特徴抽出能力の収束率を導出する。スパースコーディングとCNNの強いつながりにインスパイアされた私たちは、ニューラルネットワークがよりスパースな機能を学ぶように促すトレーニング戦略を探求する。
論文参考訳（メタデータ） (2024-08-10T12:43:55Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文参考訳（メタデータ） (2023-11-06T09:00:38Z)
Deep Dependency Networks for Multi-Label Classification [24.24496964886951]
マルコフ確率場とニューラルネットワークを組み合わせた従来の手法の性能は、わずかに改善できることを示す。我々は、依存性ネットワークを拡張するディープ依存ネットワークと呼ばれる新しいモデリングフレームワークを提案する。単純さにもかかわらず、この新しいアーキテクチャを共同学習することで、パフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2023-02-01T17:52:40Z)
Neural Network Layer Algebra: A Framework to Measure Capacity and Compression in Deep Learning [0.0]
本稿では,(深度)ニューラルネットワークの内在特性を測定するための新しい枠組みを提案する。畳み込みネットワークに重点を置いている間、我々のフレームワークはどんなネットワークアーキテクチャにも外挿できる。
論文参考訳（メタデータ） (2021-07-02T13:43:53Z)
On Learnability via Gradient Method for Two-Layer ReLU Neural Networks in Teacher-Student Setting [41.60125423028092]
教師-学生回帰モデルにおける2層ReLUネットワークについて検討する。特定の正規化と十分な過剰パラメータ化により、学生ネットワークは降下によってパラメータを識別できることを示す。測度空間における疎大なグローバルな性質のグローバルなミニマを解析する。
論文参考訳（メタデータ） (2021-06-11T09:05:41Z)
Learning distinct features helps, provably [98.78384185493624]
最小二乗損失で訓練された2層ニューラルネットワークによって学習された特徴の多様性について検討する。隠蔽層の特徴間の平均的な$L$-distanceで多様性を測定する。
論文参考訳（メタデータ） (2021-06-10T19:14:45Z)
Firefly Neural Architecture Descent: a General Approach for Growing Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文参考訳（メタデータ） (2021-02-17T04:47:18Z)
Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文参考訳（メタデータ） (2020-08-19T04:53:31Z)
Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文参考訳（メタデータ） (2020-06-22T12:46:44Z)
A Rigorous Framework for the Mean Field Limit of Multilayer Neural Networks [9.89901717499058]
ニューラルネットワークを平均場に埋め込むための数学的に厳密なフレームワークを開発する。ネットワークの幅が大きくなるにつれて、ネットワークの学習軌道は制限によってうまく捉えられることが示される。我々は、大幅多層ネットワークのいくつかの特性を証明した。
論文参考訳（メタデータ） (2020-01-30T16:43:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。