論文の概要: Shortcut Features as Top Eigenfunctions of NTK: A Linear Neural Network Case and More
- arxiv url: http://arxiv.org/abs/2602.03066v1
- Date: Tue, 03 Feb 2026 03:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.229883
- Title: Shortcut Features as Top Eigenfunctions of NTK: A Linear Neural Network Case and More
- Title(参考訳): NTKのトップ固有関数としてのショートカット特徴:線形ニューラルネットワークの場合など
- Authors: Jinwoo Lim, Suhyun Kim, Soo-Mook Moon,
- Abstract要約: 線形ニューラルネットワークの場合を解析し,ショートカット学習の重要な特性を導出する。
その結果, ショートカットの特徴は, クラスタ化分布におけるサンプル数の不均衡に起因する場合, 固有値の大きい特徴に対応することがわかった。
また,より大きな固有値を持つ特徴は,クラスタ内のデータ分散のため,トレーニング後のニューラルネットワーク出力に大きな影響を及ぼすことを示した。
- 参考スコア(独自算出の注目度): 10.601167538666902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the chronic problems of deep-learning models is shortcut learning. In a case where the majority of training data are dominated by a certain feature, neural networks prefer to learn such a feature even if the feature is not generalizable outside the training set. Based on the framework of Neural Tangent Kernel (NTK), we analyzed the case of linear neural networks to derive some important properties of shortcut learning. We defined a feature of a neural network as an eigenfunction of NTK. Then, we found that shortcut features correspond to features with larger eigenvalues when the shortcuts stem from the imbalanced number of samples in the clustered distribution. We also showed that the features with larger eigenvalues still have a large influence on the neural network output even after training, due to data variances in the clusters. Such a preference for certain features remains even when a margin of a neural network output is controlled, which shows that the max-margin bias is not the only major reason for shortcut learning. These properties of linear neural networks are empirically extended for more complex neural networks as a two-layer fully-connected ReLU network and a ResNet-18.
- Abstract(参考訳): ディープラーニングモデルの慢性的な問題の1つは、ショートカット学習である。
トレーニングデータの大半が特定の特徴によって支配されている場合、ニューラルネットワークは、たとえその機能がトレーニングセットの外で一般化できないとしても、そのような特徴を学習することを好んでいる。
ニューラル・タンジェント・カーネル(NTK)の枠組みに基づいて,線形ニューラルネットワークの事例を分析し,ショートカット学習の重要な特性を導出する。
ニューラルネットワークの特徴をNTKの固有関数として定義した。
そして, クラスタ化分布において, ショートカットが不均衡なサンプル数から生じる場合, ショートカットの特徴は, より大きい固有値を持つ特徴に対応することがわかった。
また,より大きな固有値を持つ特徴は,クラスタ内のデータ分散のため,トレーニング後のニューラルネットワーク出力に大きな影響を及ぼすことを示した。
このような特徴の選好は、ニューラルネットワークの出力のマージンが制御された場合でも残るため、最大偏差がショートカット学習の唯一の主要な理由ではないことが示される。
これらの線形ニューラルネットワークの特性は、より複雑なニューラルネットワークに対して、2層完全接続されたReLUネットワークとResNet-18として実験的に拡張されている。
関連論文リスト
- Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Consistency of Neural Networks with Regularization [0.0]
本稿では,ニューラルネットワークの規則化による一般的な枠組みを提案し,その一貫性を実証する。
双曲関数(Tanh)と整形線形単位(ReLU)の2種類の活性化関数が検討されている。
論文 参考訳(メタデータ) (2022-06-22T23:33:39Z) - How and what to learn:The modes of machine learning [7.085027463060304]
本稿では, 重み経路解析(WPA)と呼ばれる新しい手法を提案し, 多層ニューラルネットワークのメカニズムについて検討する。
WPAは、ニューラルネットワークが情報を「ホログラフィック」な方法で保存し、活用していることを示し、ネットワークはすべてのトレーニングサンプルをコヒーレントな構造にエンコードする。
隠れた層状ニューロンは学習過程の後半で異なるクラスに自己組織化することが判明した。
論文 参考訳(メタデータ) (2022-02-28T14:39:06Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Learning from Randomly Initialized Neural Network Features [24.75062551820944]
ランダムニューラルネットワークが期待できる特徴抽出器として優れているという驚くべき結果を示す。
これらのランダムな特徴は、本質的に無限次元であるニューラルネットワーク優先カーネル(NNPK)と呼ばれるものの有限サンプル化に対応する。
論文 参考訳(メタデータ) (2022-02-13T23:35:11Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。