論文の概要: The Gaussian equivalence of generative models for learning with shallow
neural networks
- arxiv url: http://arxiv.org/abs/2006.14709v3
- Date: Fri, 21 May 2021 13:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:49:37.739324
- Title: The Gaussian equivalence of generative models for learning with shallow
neural networks
- Title(参考訳): 浅層ニューラルネットワークを用いた学習のための生成モデルのガウス同値性
- Authors: Sebastian Goldt, Bruno Loureiro, Galen Reeves, Florent Krzakala, Marc
M\'ezard, Lenka Zdeborov\'a
- Abstract要約: 本研究では,事前学習した生成モデルから得られたデータに基づいて学習したニューラルネットワークの性能について検討する。
この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。
これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
- 参考スコア(独自算出の注目度): 30.47878306277163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the impact of data structure on the computational tractability
of learning is a key challenge for the theory of neural networks. Many
theoretical works do not explicitly model training data, or assume that inputs
are drawn component-wise independently from some simple probability
distribution. Here, we go beyond this simple paradigm by studying the
performance of neural networks trained on data drawn from pre-trained
generative models. This is possible due to a Gaussian equivalence stating that
the key metrics of interest, such as the training and test errors, can be fully
captured by an appropriately chosen Gaussian model. We provide three strands of
rigorous, analytical and numerical evidence corroborating this equivalence.
First, we establish rigorous conditions for the Gaussian equivalence to hold in
the case of single-layer generative models, as well as deterministic rates for
convergence in distribution. Second, we leverage this equivalence to derive a
closed set of equations describing the generalisation performance of two widely
studied machine learning problems: two-layer neural networks trained using
one-pass stochastic gradient descent, and full-batch pre-learned features or
kernel methods. Finally, we perform experiments demonstrating how our theory
applies to deep, pre-trained generative models. These results open a viable
path to the theoretical study of machine learning models with realistic data.
- Abstract(参考訳): データ構造が学習のコンピュータビリティに与える影響を理解することは、ニューラルネットワークの理論にとって重要な課題である。
多くの理論的研究は、トレーニングデータを明示的にモデル化したり、単純な確率分布とは独立に入力がコンポーネント的に描画されると仮定したりしない。
ここでは、事前訓練された生成モデルから得られたデータに基づいてトレーニングされたニューラルネットワークのパフォーマンスを研究することで、この単純なパラダイムを超越する。
これは、トレーニングやテストエラーなど興味のある重要な指標が、適切に選択されたガウスモデルによって完全に捉えることができるというガウスの等価性のためである。
この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。
まず, ガウス同値に対する厳密な条件を, 単層生成モデルの場合, 分布の収束に対する決定論的率とともに確立する。
第2に、この等価性を利用して、広く研究されている2つの機械学習問題の一般化性能を記述する、閉集合の方程式を導出する。
最後に,本理論を深く訓練された生成モデルに適用する実験を行う。
これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Metalearned Neural Circuit for Nonparametric Bayesian Inference [4.767884267554628]
機械学習の分類への応用のほとんどは、バランスの取れたクラスの閉じた集合を前提としている。
これは、クラス発生統計が長い尾の力量分布に従うことがしばしばある実世界と矛盾する。
本研究では,非パラメトリックベイズモデルから誘導バイアスを抽出し,人工ニューラルネットワークに転送する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T16:43:17Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Fundamental limits of overparametrized shallow neural networks for
supervised learning [11.136777922498355]
本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
論文 参考訳(メタデータ) (2023-07-11T08:30:50Z) - An unfolding method based on conditional Invertible Neural Networks
(cINN) using iterative training [0.0]
非可逆ニューラルネットワーク(INN)のような生成ネットワークは確率的展開を可能にする。
模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件INN(IcINN)を導入する。
論文 参考訳(メタデータ) (2022-12-16T19:00:05Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Theoretical Analysis of Self-Training with Deep Networks on Unlabeled
Data [48.4779912667317]
自己学習アルゴリズムは、ニューラルネットワークを使ってラベルのないデータで学ぶことに成功している。
この研究は、半教師なし学習、教師なしドメイン適応、教師なし学習のための深層ネットワークによる自己学習の統一的理論的解析を提供する。
論文 参考訳(メタデータ) (2020-10-07T19:43:55Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Learning Queuing Networks by Recurrent Neural Networks [0.0]
データから性能モデルを導出する機械学習手法を提案する。
我々は、通常の微分方程式のコンパクトな系の観点から、それらの平均力学の決定論的近似を利用する。
これにより、ニューラルネットワークの解釈可能な構造が可能になり、システム測定からトレーニングしてホワイトボックスパラメータ化モデルを生成することができる。
論文 参考訳(メタデータ) (2020-02-25T10:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。