論文の概要: Divergence of Empirical Neural Tangent Kernel in Classification Problems
- arxiv url: http://arxiv.org/abs/2504.11130v1
- Date: Tue, 15 Apr 2025 12:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:24.089870
- Title: Divergence of Empirical Neural Tangent Kernel in Classification Problems
- Title(参考訳): 経験的ニューラルネットワークカーネルの分類問題における多様性
- Authors: Zixiong Yu, Songtao Tian, Guhan Chen,
- Abstract要約: 分類問題では、完全連結ニューラルネットワーク(FCN)と残留ニューラルネットワーク(ResNet)は、ニューラルタンジェントカーネル(NTK)に基づくカーネルロジスティック回帰によって近似できない。
ネットワーク幅が大きくなるにつれて、NTKはトレーニングサンプル上で常にNTKに均一に収束しないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper demonstrates that in classification problems, fully connected neural networks (FCNs) and residual neural networks (ResNets) cannot be approximated by kernel logistic regression based on the Neural Tangent Kernel (NTK) under overtraining (i.e., when training time approaches infinity). Specifically, when using the cross-entropy loss, regardless of how large the network width is (as long as it is finite), the empirical NTK diverges from the NTK on the training samples as training time increases. To establish this result, we first demonstrate the strictly positive definiteness of the NTKs for multi-layer FCNs and ResNets. Then, we prove that during training, % with the cross-entropy loss, the neural network parameters diverge if the smallest eigenvalue of the empirical NTK matrix (Gram matrix) with respect to training samples is bounded below by a positive constant. This behavior contrasts sharply with the lazy training regime commonly observed in regression problems. Consequently, using a proof by contradiction, we show that the empirical NTK does not uniformly converge to the NTK across all times on the training samples as the network width increases. We validate our theoretical results through experiments on both synthetic data and the MNIST classification task. This finding implies that NTK theory is not applicable in this context, with significant theoretical implications for understanding neural networks in classification problems.
- Abstract(参考訳): 本稿では, 分類問題において, 学習時間帯が無限に近づいた場合, ニューラルタンジェントカーネル (NTK) に基づくカーネルロジスティック回帰により, 完全連結ニューラルネットワーク (FCN) と残留ニューラルネットワーク (ResNet) を近似できないことを示す。
具体的には、ネットワーク幅が(有限である限り)どれだけ大きいかに関わらず、クロスエントロピー損失を使用する場合、トレーニング時間が増加するにつれて、NTKはトレーニングサンプル上でNTKから分岐する。
この結果を確立するために,多層FCNとResNetに対するNTKの厳密な正の定性を示す。
そして, トレーニング中に, ニューラルネットワークパラメータは, トレーニングサンプルに対する経験的NTK行列(Gram行列)の最小固有値が正の定数で下界している場合に分散することを示した。
この挙動は、回帰問題でよく見られる遅延訓練体制とは対照的である。
その結果,ネットワーク幅が大きくなるにつれて,NTKがトレーニングサンプル上で常にNTKに均一に収束しないことを示す。
我々は、合成データとMNIST分類タスクの両方の実験を通して、理論的結果を検証する。
この発見は、NTK理論がこの文脈では適用できないことを示唆しており、分類問題におけるニューラルネットワークの理解に重要な理論的意味を持つ。
関連論文リスト
- Issues with Neural Tangent Kernel Approach to Neural Networks [13.710104651002869]
我々はNTKの導出を再検討し、この等価定理を評価するために数値実験を行う。
ニューラルネットワークとそれに対応する更新NTKにレイヤーを追加すると、予測器エラーの一致した変化が得られないことを観察する。
これらの観察から、同値定理は実際にはうまく機能せず、ニューラルネットワークのトレーニングプロセスに適切に対処するかどうか疑問が呈される。
論文 参考訳(メタデータ) (2025-01-19T03:21:06Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Limitations of the NTK for Understanding Generalization in Deep Learning [13.44676002603497]
我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
論文 参考訳(メタデータ) (2022-06-20T21:23:28Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Rethinking Influence Functions of Neural Networks in the
Over-parameterized Regime [12.501827786462924]
インフルエンス関数(IF)は、ニューラルネットワークにおける1つのトレーニングポイントを除去する効果を測定するように設計されている。
ニューラルネットワークの平均二乗損失を正規化して訓練したニューラルネットワークのIFを計算するために,ニューラルタンジェントカーネル(NTK)理論を用いる。
論文 参考訳(メタデータ) (2021-12-15T17:44:00Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。