論文の概要: Can Kernel Methods Explain How the Data Affects Neural Collapse?
- arxiv url: http://arxiv.org/abs/2406.02105v3
- Date: Fri, 25 Apr 2025 06:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.798804
- Title: Can Kernel Methods Explain How the Data Affects Neural Collapse?
- Title(参考訳): カーネルメソッドは、データが神経崩壊に与える影響を説明できるか?
- Authors: Vignesh Kothapalli, Tom Tirer,
- Abstract要約: ニューラルネットワーク(NN)分類器がゼロトレーニングエラー点を超えると、"Neural Collapse"(NC)現象が発生する。
本稿では,浅いNNに関連付けられたカーネルを用いてNC1を解析する可能性について検討する。
- 参考スコア(独自算出の注目度): 9.975341265604577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A vast amount of literature has recently focused on the "Neural Collapse" (NC) phenomenon, which emerges when training neural network (NN) classifiers beyond the zero training error point. The core component of NC is the decrease in the within-class variability of the network's deepest features, dubbed as NC1. The theoretical works that study NC are typically based on simplified unconstrained features models (UFMs) that mask any effect of the data on the extent of collapse. To address this limitation of UFMs, this paper explores the possibility of analyzing NC1 using kernels associated with shallow NNs. We begin by formulating an NC1 metric as a function of the kernel. Then, we specialize it to the NN Gaussian Process kernel (NNGP) and the Neural Tangent Kernel (NTK), associated with wide networks at initialization and during gradient-based training with a small learning rate, respectively. As a key result, we show that the NTK does not represent more collapsed features than the NNGP for Gaussian data of arbitrary dimensions. This showcases the limitations of data-independent kernels such as NTK in approximating the NC behavior of NNs. As an alternative to NTK, we then empirically explore a recently proposed data-aware Gaussian Process kernel, which generalizes NNGP to model feature learning. We show that this kernel yields lower NC1 than NNGP but may not follow the trends of the shallow NN. Our study demonstrates that adaptivity to data may allow kernel-based analysis of NC, though further advancements in this area are still needed. A nice byproduct of our study is showing both theoretically and empirically that the choice of nonlinear activation function affects NC1 (with ERF yielding lower values than ReLU). The code is available at: https://github.com/kvignesh1420/shallow_nc1
- Abstract(参考訳): ニューラルネットワーク(NN)分類器をゼロトレーニングエラーポイントを越えてトレーニングする場合に現れる"ニューラル・コラプス(Neural Collapse)"現象に、多くの文献が注目されている。
NCのコアコンポーネントは、NC1と呼ばれるネットワークの最も深い機能のクラス内での多様性の低下である。
NCを研究する理論的研究は典型的には、崩壊の程度におけるデータの影響を隠蔽する単純化されていない特徴モデル(UFM)に基づいている。
本稿では,この制限に対処するために,浅いNNに関連付けられたカーネルを用いてNC1を解析する可能性について検討する。
まず、NC1メトリックをカーネルの関数として定式化する。
次に,NN Gaussian Process kernel (NNGP) とNeural Tangent Kernel (NTK) に特化し,初期化時の広帯域ネットワークと学習率の低い勾配ベーストレーニングを行う。
その結果、NTK は任意の次元のガウスデータに対して NNGP よりも崩壊した特徴を表現していないことがわかった。
これは、NNのNC動作を近似するNTKのようなデータ非依存のカーネルの制限を示す。
NTKの代替として、NNGPを一般化して特徴学習をモデル化する、最近提案されたデータ対応ガウスプロセスカーネルを実証的に検討する。
このカーネルはNNGPよりもNC1が低いが、浅いNNの傾向に従わない可能性がある。
我々の研究は、データへの適応性はNCのカーネルベースの解析を可能にするが、この分野のさらなる進歩は依然として必要であることを示している。
本研究の副産物は, 非線形活性化関数の選択がNC1(ERFはReLUよりも低い値)に影響を与えることを理論的および実証的に示すことである。
コードは以下の通り。 https://github.com/kvignesh1420/shallow_nc1
関連論文リスト
- Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data [0.8594140167290099]
ニューラル崩壊(Neural collapse, NC)は、ディープ・ニューラル・ネットワーク(DNN)の終末期に発生する現象である。
2層または3層ニューラルネットワークでNCが発生した場合の完全な特徴付けを提供する。
論文 参考訳(メタデータ) (2024-09-03T12:30:21Z) - Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - A Unified Kernel for Neural Network Learning [4.0759204898334715]
本稿では、勾配降下を伴うニューラルネットワークの学習力学を特徴付けるUnified Neural Kernel(UNK)を提案する。
UNK は NNGP と NTK の両方の制限特性を維持し、有限学習ステップで NTK に似た振る舞いを示す。
また、UNKカーネルの均一な厳密性と学習収束性を理論的に特徴づける。
論文 参考訳(メタデータ) (2024-03-26T07:55:45Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Neural Networks as Kernel Learners: The Silent Alignment Effect [86.44610122423994]
遅延トレーニング体制におけるニューラルネットワークは、カーネルマシンに収束する。
これは、サイレントアライメント(サイレントアライメント)という現象のためである。
また、非白データは無声アライメント効果を弱めることを示した。
論文 参考訳(メタデータ) (2021-10-29T18:22:46Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Neural Optimization Kernel: Towards Robust Deep Learning [13.147925376013129]
近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
論文 参考訳(メタデータ) (2021-06-11T00:34:55Z) - Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel
Theory? [2.0711789781518752]
ニューラルカーネル(NTK)理論は、勾配勾配下での無限大深層ニューラルネットワーク(DNN)の力学の研究に広く用いられている。
NTK理論が実用的に完全に連結されたReLUおよびシグモイドDNNに対して有効である場合の実証的研究を行う。
特にNTK理論は、十分に深いネットワークの挙動を説明しておらず、それらの勾配がネットワークの層を伝搬するにつれて爆発する。
論文 参考訳(メタデータ) (2020-12-08T15:19:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - The Recurrent Neural Tangent Kernel [11.591070761599328]
本稿では、過度にパラメータ化されたRNNの動作に関する新たな洞察を提供するRNTK(Recurrent Neural Tangent Kernel)を紹介し、研究する。
56個の実世界のデータ実験により、RNTKは他のカーネルよりも大幅に性能が向上することを示した。
論文 参考訳(メタデータ) (2020-06-18T02:59:21Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。