論文の概要: Just One Layer Norm Guarantees Stable Extrapolation
- arxiv url: http://arxiv.org/abs/2505.14512v1
- Date: Tue, 20 May 2025 15:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.469383
- Title: Just One Layer Norm Guarantees Stable Extrapolation
- Title(参考訳): 一つの層が安定な外挿を保証
- Authors: Juliusz Ziomek, George Whittle, Michael A. Osborne,
- Abstract要約: 我々は、収束まで訓練された無限大のニューラルネットワークを解析するために、ニューラルカーネル・タンジェント(NTK)理論を適用することで、一般的な結果を証明した。
トレーニングデータから離れた入力においても、少なくとも1つのLNを持つ無限に広いネットワークの出力が有界であることを示す。
我々は、トレーニング中に見られたものよりも大きいタンパク質の残基サイズを予測し、トレーニングセットから欠落した少数民族の顔画像から年齢を推定するなど、現実世界の意義を探究する。
- 参考スコア(独自算出の注目度): 18.1154945039478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In spite of their prevalence, the behaviour of Neural Networks when extrapolating far from the training distribution remains poorly understood, with existing results limited to specific cases. In this work, we prove general results -- the first of their kind -- by applying Neural Tangent Kernel (NTK) theory to analyse infinitely-wide neural networks trained until convergence and prove that the inclusion of just one Layer Norm (LN) fundamentally alters the induced NTK, transforming it into a bounded-variance kernel. As a result, the output of an infinitely wide network with at least one LN remains bounded, even on inputs far from the training data. In contrast, we show that a broad class of networks without LN can produce pathologically large outputs for certain inputs. We support these theoretical findings with empirical experiments on finite-width networks, demonstrating that while standard NNs often exhibit uncontrolled growth outside the training domain, a single LN layer effectively mitigates this instability. Finally, we explore real-world implications of this extrapolatory stability, including applications to predicting residue sizes in proteins larger than those seen during training and estimating age from facial images of underrepresented ethnicities absent from the training set.
- Abstract(参考訳): その頻度にもかかわらず、トレーニング分布から遠ざかるときのニューラルネットワークの挙動は、未理解のままであり、既存の結果は特定のケースに限られている。
本研究では、収束するまで訓練された無限大のニューラルネットワークを解析するために、ニューラル・タンジェント・カーネル(NTK)理論を適用し、単一のレイヤノルム(LN)が誘導されたNTKを根本的に変化させ、それを有界分散カーネルに変換することを証明する。
その結果、トレーニングデータから遠く離れた入力においても、少なくとも1つのLNを持つ無限に広いネットワークの出力は有界である。
対照的に、LNのないネットワークの幅広いクラスは、特定の入力に対して、病理的に大きな出力を生成できることを示す。
これらの理論的な知見を有限幅ネットワーク上での実験実験により支持し、標準NNはトレーニング領域外において制御不能な成長を示すことが多いが、単一のLN層はこの不安定性を効果的に緩和することを示した。
最後に、トレーニング中に見られたものよりも大きいタンパク質の残基サイズを予測し、トレーニングセットから欠落した少数民族の顔画像から年齢を推定するなど、この外挿安定性の現実的な意味について検討する。
関連論文リスト
- Divergence of Empirical Neural Tangent Kernel in Classification Problems [0.0]
分類問題では、完全連結ニューラルネットワーク(FCN)と残留ニューラルネットワーク(ResNet)は、ニューラルタンジェントカーネル(NTK)に基づくカーネルロジスティック回帰によって近似できない。
ネットワーク幅が大きくなるにつれて、NTKはトレーニングサンプル上で常にNTKに均一に収束しないことを示す。
論文 参考訳(メタデータ) (2025-04-15T12:30:21Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Limitations of the NTK for Understanding Generalization in Deep Learning [13.44676002603497]
我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
論文 参考訳(メタデータ) (2022-06-20T21:23:28Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Learning and Generalization in Overparameterized Normalizing Flows [13.074242275886977]
正規化フロー(NF)は教師なし学習において重要なモデルのクラスである。
既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメトリゼーションがトレーニングを損なうという理論的および実証的な証拠を提供する。
ネットワークが過度にパラメータ化されている場合、最小限の仮定の下で、制約のないNFが妥当なデータ分布を効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-19T17:11:42Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。