論文の概要: Observation Noise and Initialization in Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2502.01556v1
- Date: Mon, 03 Feb 2025 17:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:57.331479
- Title: Observation Noise and Initialization in Wide Neural Networks
- Title(参考訳): 広帯域ニューラルネットワークにおける観測ノイズと初期化
- Authors: Sergio Calvo-Ordoñez, Jonathan Plenk, Richard Bergna, Alvaro Cartea, Jose Miguel Hernandez-Lobato, Konstantina Palla, Kamil Ciosek,
- Abstract要約: 任意の事前平均関数を可能にするテキストシフトネットワークを導入する。
我々の理論的な洞察は、観測ノイズとネットワークアーキテクチャの異なる値に関する実験によって実証的に検証されている。
- 参考スコア(独自算出の注目度): 9.163214210191814
- License:
- Abstract: Performing gradient descent in a wide neural network is equivalent to computing the posterior mean of a Gaussian Process with the Neural Tangent Kernel (NTK-GP), for a specific choice of prior mean and with zero observation noise. However, existing formulations of this result have two limitations: i) the resultant NTK-GP assumes no noise in the observed target variables, which can result in suboptimal predictions with noisy data; ii) it is unclear how to extend the equivalence to an arbitrary prior mean, a crucial aspect of formulating a well-specified model. To address the first limitation, we introduce a regularizer into the neural network's training objective, formally showing its correspondence to incorporating observation noise into the NTK-GP model. To address the second, we introduce a \textit{shifted network} that enables arbitrary prior mean functions. This approach allows us to perform gradient descent on a single neural network, without expensive ensembling or kernel matrix inversion. Our theoretical insights are validated empirically, with experiments exploring different values of observation noise and network architectures.
- Abstract(参考訳): 広範ニューラルネットワークにおける勾配降下は、先行平均の特定の選択と観測ノイズゼロのガウス過程の後方平均をニューラルタンジェントカーネル(NTK-GP)で計算するのと等価である。
しかし、この結果の既存の定式化には2つの制限がある。
一 結果のNTK-GPは、観測対象変数の雑音を前提とせず、ノイズのあるデータで最適下予測をすることができる。
二 自己同値性をどのように任意の事前平均に拡張するかは、明確に特定されたモデルを定式化する重要な側面である。
最初の制限に対処するため、ニューラルネットワークのトレーニング目標に正規化器を導入し、NTK-GPモデルに観測ノイズを組み込むための対応を正式に示す。
第二に、任意の事前平均関数を可能にする \textit{shifted network} を導入する。
このアプローチにより、高価なアンサンブルやカーネルマトリックスの逆変換なしに、単一のニューラルネットワーク上で勾配降下を実行することができる。
我々の理論的な洞察は、観測ノイズとネットワークアーキテクチャの異なる値に関する実験によって実証的に検証されている。
関連論文リスト
- Neural Tangent Kernels Motivate Graph Neural Networks with
Cross-Covariance Graphs [94.44374472696272]
グラフニューラルネットワーク(GNN)の文脈におけるNTKとアライメントについて検討する。
その結果、2層GNNのアライメントの最適性に関する理論的保証が確立された。
これらの保証は、入力と出力データの相互共分散の関数であるグラフシフト演算子によって特徴づけられる。
論文 参考訳(メタデータ) (2023-10-16T19:54:21Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - A Kernel-Expanded Stochastic Neural Network [10.837308632004644]
ディープニューラルネットワークは、トレーニングにおいて、しばしばローカルな最小限に閉じ込められる。
新しいカーネル拡張ニューラルネットワーク(K-StoNet)モデルは、潜在変数モデルとしてネットワークを再構成する。
モデルは命令正規化最適化(IRO)アルゴリズムを用いて容易に訓練することができる。
論文 参考訳(メタデータ) (2022-01-14T06:42:42Z) - Nonparametric Regression with Shallow Overparameterized Neural Networks
Trained by GD with Early Stopping [11.24426822697648]
GD(Gradient Descent)によってトレーニングされたニューラルネットワークは,入力に対してスムーズであることを示す。
ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。
論文 参考訳(メタデータ) (2021-07-12T11:56:53Z) - One-pass Stochastic Gradient Descent in Overparametrized Two-layer
Neural Networks [15.789476296152559]
本研究では,1パスsgd下での2層ニューラルネットワークの予測誤差が期待値に収束することを示す。
収束速度は、いわゆるニューラル・タンジェント・カーネル(NTK)に関連する積分作用素の固有分解に依存する
我々の分析の重要なステップは、VC次元とマクダイアルミドの不等式を用いて、ランダムなカーネル関数が高い確率でNTKに収束することを示すことである。
論文 参考訳(メタデータ) (2021-05-01T14:34:03Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。