論文の概要: Fundamental limits of overparametrized shallow neural networks for
supervised learning
- arxiv url: http://arxiv.org/abs/2307.05635v1
- Date: Tue, 11 Jul 2023 08:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:47:30.736601
- Title: Fundamental limits of overparametrized shallow neural networks for
supervised learning
- Title(参考訳): 教師あり学習のための過パラメータ浅層ニューラルネットワークの基本限界
- Authors: Francesco Camilli, Daria Tieplova, Jean Barbier
- Abstract要約: 本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
- 参考スコア(独自算出の注目度): 11.136777922498355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We carry out an information-theoretical analysis of a two-layer neural
network trained from input-output pairs generated by a teacher network with
matching architecture, in overparametrized regimes. Our results come in the
form of bounds relating i) the mutual information between training data and
network weights, or ii) the Bayes-optimal generalization error, to the same
quantities but for a simpler (generalized) linear model for which explicit
expressions are rigorously known. Our bounds, which are expressed in terms of
the number of training samples, input dimension and number of hidden units,
thus yield fundamental performance limits for any neural network (and actually
any learning procedure) trained from limited data generated according to our
two-layer teacher neural network model. The proof relies on rigorous tools from
spin glasses and is guided by ``Gaussian equivalence principles'' lying at the
core of numerous recent analyses of neural networks. With respect to the
existing literature, which is either non-rigorous or restricted to the case of
the learning of the readout weights only, our results are information-theoretic
(i.e. are not specific to any learning algorithm) and, importantly, cover a
setting where all the network parameters are trained.
- Abstract(参考訳): 教師ネットワークで生成した入力出力対から学習した2層ニューラルネットワークを,過パラメータ化手法を用いて情報理論的に解析する。
私たちの結果は 境界という形で
一 訓練データとネットワークの重み付けの相互情報
二 明示的な表現が厳密に知られているより単純な(一般化された)線形モデルに対して、ベイズ最適一般化誤差を同じ量とする。
私たちの境界は、トレーニングサンプルの数、入力寸法、隠れた単位の数で表され、これにより、2層ニューラルネットワークモデルに基づいて生成された限られたデータからトレーニングされた任意のニューラルネットワーク(および実際に学習手順)に対して、基本的な性能限界が生じる。
この証明はスピングラスの厳密な道具に依存しており、近年のニューラルネットワークの分析の核心にある「ガウシアン同値原理」に導かれる。
既存の文献では,読み出し重みの学習のみに制限されるか非リゴラスであるか,あるいは制限されているが,本研究の結果は情報理論的(学習アルゴリズムに特化していない)であり,最も重要なのは,ネットワークパラメータがすべてトレーニングされる環境をカバーすることである。
関連論文リスト
- A Survey on Statistical Theory of Deep Learning: Approximation, Training
Dynamics, and Generative Models [15.692437265063342]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する結果は、回帰または分類の非パラメトリックフレームワークでレビューされる。
本稿では、GAN(Generative Adversarial Networks)、拡散モデル、Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルにおける最新の理論的進歩について概説する。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Generalization Error Bounds for Iterative Recovery Algorithms Unfolded
as Neural Networks [6.173968909465726]
線形測定の少ないスパース再構成に適したニューラルネットワークの一般クラスを導入する。
層間の重量共有を広範囲に行うことで、全く異なるニューラルネットワークタイプに対する統一的な分析を可能にします。
論文 参考訳(メタデータ) (2021-12-08T16:17:33Z) - Persistent Homology Captures the Generalization of Neural Networks
Without A Validation Set [0.0]
本稿では,代数的トポロジー,特に永続的ホモロジーを用いたニューラルネットワークのトレーニングについて考察する。
ニューラルネットワークの単純な複雑な表現を用いて、ニューラルネットワーク学習プロセスにおけるPHダイアグラム距離の進化について検討する。
その結果,連続するニューラルネットワーク状態間のPHダイアグラム距離は,検証精度と相関していることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:31Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。