論文の概要: Learning curves for deep structured Gaussian feature models
- arxiv url: http://arxiv.org/abs/2303.00564v1
- Date: Wed, 1 Mar 2023 15:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:31:05.172421
- Title: Learning curves for deep structured Gaussian feature models
- Title(参考訳): 深い構造を持つガウス特徴モデルの学習曲線
- Authors: Jacob A. Zavatone-Veth and Cengiz Pehlevan
- Abstract要約: 構成されたガウス的特徴の層を持つモデルに対する学習曲線を導出する。
特徴層の最初の行間の相関を許容することは一般化に役立ち、後続層の構造は一般的に有害であることを示す。
- 参考スコア(独自算出の注目度): 16.244541005112747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, significant attention in deep learning theory has been
devoted to analyzing the generalization performance of models with multiple
layers of Gaussian random features. However, few works have considered the
effect of feature anisotropy; most assume that features are generated using
independent and identically distributed Gaussian weights. Here, we derive
learning curves for models with many layers of structured Gaussian features. We
show that allowing correlations between the rows of the first layer of features
can aid generalization, while structure in later layers is generally
detrimental. Our results shed light on how weight structure affects
generalization in a simple class of solvable models.
- Abstract(参考訳): 近年,多層なガウス的ランダムな特徴を持つモデルの一般化性能の解析にディープラーニング理論に大きな注目が寄せられている。
しかし、特徴異方性の影響を考察した作品はほとんどなく、ほとんどが独立かつ同分布のガウス重みを用いて特徴が生成されると仮定している。
ここでは,構造化ガウス的特徴の多層モデルに対する学習曲線を導出する。
特徴層の最初の行間の相関を許容することは一般化に役立ち、後層の構造は一般に有害であることを示す。
その結果,単純な可解モデルのクラスにおいて,重み構造が一般化にどのように影響するかが明らかになった。
関連論文リスト
- The Persian Rug: solving toy models of superposition using large-scale symmetries [0.0]
入力次元が大きければ最小限の非線形スパースデータオートエンコーダによって学習されたアルゴリズムの完全なメカニスティック記述を示す。
我々の研究は、オートエンコーダの構造を理解する技術を導入することによって、ニューラルネットワークの解釈可能性に貢献している。
論文 参考訳(メタデータ) (2024-10-15T22:52:45Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Contrasting random and learned features in deep Bayesian linear
regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文 参考訳(メタデータ) (2022-03-01T15:51:29Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Asymptotics of Ridge Regression in Convolutional Models [26.910291664252973]
特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。
畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。
論文 参考訳(メタデータ) (2021-03-08T05:56:43Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。