論文の概要: Fundamental limits of overparametrized shallow neural networks for
supervised learning
- arxiv url: http://arxiv.org/abs/2307.05635v1
- Date: Tue, 11 Jul 2023 08:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:47:30.736601
- Title: Fundamental limits of overparametrized shallow neural networks for
supervised learning
- Title(参考訳): 教師あり学習のための過パラメータ浅層ニューラルネットワークの基本限界
- Authors: Francesco Camilli, Daria Tieplova, Jean Barbier
- Abstract要約: 本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
- 参考スコア(独自算出の注目度): 11.136777922498355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We carry out an information-theoretical analysis of a two-layer neural
network trained from input-output pairs generated by a teacher network with
matching architecture, in overparametrized regimes. Our results come in the
form of bounds relating i) the mutual information between training data and
network weights, or ii) the Bayes-optimal generalization error, to the same
quantities but for a simpler (generalized) linear model for which explicit
expressions are rigorously known. Our bounds, which are expressed in terms of
the number of training samples, input dimension and number of hidden units,
thus yield fundamental performance limits for any neural network (and actually
any learning procedure) trained from limited data generated according to our
two-layer teacher neural network model. The proof relies on rigorous tools from
spin glasses and is guided by ``Gaussian equivalence principles'' lying at the
core of numerous recent analyses of neural networks. With respect to the
existing literature, which is either non-rigorous or restricted to the case of
the learning of the readout weights only, our results are information-theoretic
(i.e. are not specific to any learning algorithm) and, importantly, cover a
setting where all the network parameters are trained.
- Abstract(参考訳): 教師ネットワークで生成した入力出力対から学習した2層ニューラルネットワークを,過パラメータ化手法を用いて情報理論的に解析する。
私たちの結果は 境界という形で
一 訓練データとネットワークの重み付けの相互情報
二 明示的な表現が厳密に知られているより単純な(一般化された)線形モデルに対して、ベイズ最適一般化誤差を同じ量とする。
私たちの境界は、トレーニングサンプルの数、入力寸法、隠れた単位の数で表され、これにより、2層ニューラルネットワークモデルに基づいて生成された限られたデータからトレーニングされた任意のニューラルネットワーク(および実際に学習手順)に対して、基本的な性能限界が生じる。
この証明はスピングラスの厳密な道具に依存しており、近年のニューラルネットワークの分析の核心にある「ガウシアン同値原理」に導かれる。
既存の文献では,読み出し重みの学習のみに制限されるか非リゴラスであるか,あるいは制限されているが,本研究の結果は情報理論的(学習アルゴリズムに特化していない)であり,最も重要なのは,ネットワークパラメータがすべてトレーニングされる環境をカバーすることである。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Generalization Error Bounds for Iterative Recovery Algorithms Unfolded
as Neural Networks [6.173968909465726]
線形測定の少ないスパース再構成に適したニューラルネットワークの一般クラスを導入する。
層間の重量共有を広範囲に行うことで、全く異なるニューラルネットワークタイプに対する統一的な分析を可能にします。
論文 参考訳(メタデータ) (2021-12-08T16:17:33Z) - Learning and Generalization in Overparameterized Normalizing Flows [13.074242275886977]
正規化フロー(NF)は教師なし学習において重要なモデルのクラスである。
既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメトリゼーションがトレーニングを損なうという理論的および実証的な証拠を提供する。
ネットワークが過度にパラメータ化されている場合、最小限の仮定の下で、制約のないNFが妥当なデータ分布を効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-19T17:11:42Z) - Persistent Homology Captures the Generalization of Neural Networks
Without A Validation Set [0.0]
本稿では,代数的トポロジー,特に永続的ホモロジーを用いたニューラルネットワークのトレーニングについて考察する。
ニューラルネットワークの単純な複雑な表現を用いて、ニューラルネットワーク学習プロセスにおけるPHダイアグラム距離の進化について検討する。
その結果,連続するニューラルネットワーク状態間のPHダイアグラム距離は,検証精度と相関していることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:31Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。