論文の概要: Contrasting random and learned features in deep Bayesian linear
regression
- arxiv url: http://arxiv.org/abs/2203.00573v1
- Date: Tue, 1 Mar 2022 15:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:29:11.324739
- Title: Contrasting random and learned features in deep Bayesian linear
regression
- Title(参考訳): ディープベイズ線形回帰におけるランダム特徴と学習特徴の対比
- Authors: Jacob A. Zavatone-Veth, William L. Tong, and Cengiz Pehlevan
- Abstract要約: 本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
- 参考スコア(独自算出の注目度): 12.234742322758418
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding how feature learning affects generalization is among the
foremost goals of modern deep learning theory. Here, we study how the ability
to learn representations affects the generalization performance of a simple
class of models: deep Bayesian linear neural networks trained on unstructured
Gaussian data. By comparing deep random feature models to deep networks in
which all layers are trained, we provide a detailed characterization of the
interplay between width, depth, data density, and prior mismatch. We show that
both models display sample-wise double-descent behavior in the presence of
label noise. Random feature models can also display model-wise double-descent
if there are narrow bottleneck layers, while deep networks do not show these
divergences. Random feature models can have particular widths that are optimal
for generalization at a given data density, while making neural networks as
wide or as narrow as possible is always optimal. Moreover, we show that the
leading-order correction to the kernel-limit learning curve cannot distinguish
between random feature models and deep networks in which all layers are
trained. Taken together, our findings begin to elucidate how architectural
details affect generalization performance in this simple class of deep
regression models.
- Abstract(参考訳): 特徴学習が一般化にどのように影響するかを理解することは、現代のディープラーニング理論の最も重要な目標である。
本稿では,表現の学習能力が,非構造ガウスデータに基づく深部ベイズ線形ニューラルネットワークの一般化性能に与える影響について検討する。
すべての層がトレーニングされたディープネットワークとディープランダム特徴モデルを比較することで、幅、深さ、データ密度、事前ミスマッチの間の相互作用の詳細な特徴付けを提供する。
両モデルとも,ラベルノイズの存在下での二重発振挙動を示す。
ランダム特徴モデルは、狭いボトルネック層がある場合、モデルワイドのダブルディフレッシュを表示することもできる。
ランダム特徴モデルは与えられたデータ密度での一般化に最適な特定の幅を持つが、ニューラルネットワークを可能な限り幅や幅を狭くすることは常に最適である。
さらに,カーネル限界学習曲線の先行順序補正は,全ての層が訓練されるような,ランダムな特徴モデルとディープネットワークを区別できないことを示す。
まとめると、この単純な回帰モデルでは、アーキテクチャの詳細が一般化性能にどのように影響するかが解明される。
関連論文リスト
- Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Investigating the Relationship Between Dropout Regularization and Model
Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。
2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。
各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文 参考訳(メタデータ) (2021-08-14T23:49:33Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。