論文の概要: Double-descent curves in neural networks: a new perspective using
Gaussian processes
- arxiv url: http://arxiv.org/abs/2102.07238v2
- Date: Tue, 16 Feb 2021 11:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 12:08:52.870687
- Title: Double-descent curves in neural networks: a new perspective using
Gaussian processes
- Title(参考訳): ニューラルネットワークにおける2次元曲線:ガウス過程を用いた新しい展望
- Authors: Ouns El Harzli, Guillermo Valle-P\'erez and Ard A. Louis
- Abstract要約: ニューラルネットワークの2次元曲線は、一般化誤差がパラメータの増加とともに下降する現象を記述する。
我々は、無限の幅の限界で完全に接続されたネットワーク(FCN)に正確にマップニューラルネットワークガウスプロセス(NNGP)を使用します。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Double-descent curves in neural networks describe the phenomenon that the
generalisation error initially descends with increasing parameters, then grows
after reaching an optimal number of parameters which is less than the number of
data points, but then descends again in the overparameterised regime. Here we
use a neural network Gaussian process (NNGP) which maps exactly to a fully
connected network (FCN) in the infinite width limit, combined with techniques
from random matrix theory, to calculate this generalisation behaviour, with a
particular focus on the overparameterised regime. We verify our predictions
with numerical simulations of the corresponding Gaussian process regressions.
An advantage of our NNGP approach is that the analytical calculations are
easier to interpret. We argue that neural network generalization performance
improves in the overparameterised regime precisely because that is where they
converge to their equivalent Gaussian process.
- Abstract(参考訳): ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加と共に下降する現象を記述し、データポイントの数より少ないパラメータの最適な数に達した後に成長するが、過度にパラメータ化された状態に再び下降する。
ここでは、無限幅限界の完全連結ネットワーク(FCN)に正確にマップするニューラルネットワークガウスプロセス(NNGP)を使用して、ランダム行列理論のテクニックと組み合わせ、この一般化の挙動を計算し、特に過パラメータ化された体制に焦点を当てます。
我々は,対応するガウス過程回帰の数値シミュレーションを用いて予測を検証する。
NNGPアプローチの利点は、解析的計算の方が解釈が容易である点である。
我々は、ニューラルネットワークの一般化性能は、オーバーパラメータ化された体制において正確に改善する、なぜなら、それが同等のガウス過程に収束するからである。
関連論文リスト
- Sparse deep neural networks for nonparametric estimation in high-dimensional sparse regression [4.983567824636051]
本研究は、非パラメトリック推定とパラメトリックスパースディープニューラルネットワークを初めて組み合わせたものである。
偏微分の非パラメトリック推定は非線形変数選択にとって非常に重要であるため、現在の結果はディープニューラルネットワークの解釈可能性に有望な未来を示すものである。
論文 参考訳(メタデータ) (2024-06-26T07:41:41Z) - Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - Neural Tangent Kernels Motivate Graph Neural Networks with
Cross-Covariance Graphs [94.44374472696272]
グラフニューラルネットワーク(GNN)の文脈におけるNTKとアライメントについて検討する。
その結果、2層GNNのアライメントの最適性に関する理論的保証が確立された。
これらの保証は、入力と出力データの相互共分散の関数であるグラフシフト演算子によって特徴づけられる。
論文 参考訳(メタデータ) (2023-10-16T19:54:21Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Interrelation of equivariant Gaussian processes and convolutional neural
networks [77.34726150561087]
現在、ニューラルネットワーク(NN)とガウス過程(GP)の関係に基づく機械学習(ML)には、かなり有望な新しい傾向がある。
本研究では、ベクトル値のニューロン活性化を持つ2次元ユークリッド群とそれに対応する独立に導入された同変ガウス過程(GP)との関係を確立する。
論文 参考訳(メタデータ) (2022-09-17T17:02:35Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Uniform Generalization Bounds for Overparameterized Neural Networks [5.945320097465419]
カーネルシステムにおけるオーバーパラメータ化ニューラルネットワークに対する一様一般化バウンダリを証明した。
我々の境界は、アクティベーション関数の微分可能性に応じて正確な誤差率をキャプチャする。
NTカーネルに対応するRKHSと、Mat'ernカーネルのファミリーに対応するRKHSの等価性を示す。
論文 参考訳(メタデータ) (2021-09-13T16:20:13Z) - Linear approximability of two-layer neural networks: A comprehensive
analysis based on spectral decay [4.042159113348107]
まず、単一ニューロンの場合について考察し、コルモゴロフ幅で定量化される線形近似性は、共役核の固有値崩壊によって制御されることを示す。
また,2層ニューラルネットワークについても同様の結果が得られた。
論文 参考訳(メタデータ) (2021-08-10T23:30:29Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural
Networks [17.188280334580195]
トレーニングサンプル数の関数として,カーネル回帰の一般化性能に関する解析式を導出する。
我々の表現は、トレーニングとニューラルカーネル・タンジェント(NTK)によるカーネル回帰の等価性により、広いニューラルネットワークに適用される。
我々は、合成データとMNISTデータセットのシミュレーションを用いて、我々の理論を検証する。
論文 参考訳(メタデータ) (2020-02-07T00:03:40Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。