論文の概要: Better NTK Conditioning: A Free Lunch from (ReLU) Nonlinear Activation in Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2305.08813v2
- Date: Mon, 20 Oct 2025 20:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:01.224248
- Title: Better NTK Conditioning: A Free Lunch from (ReLU) Nonlinear Activation in Wide Neural Networks
- Title(参考訳): NTKコンディショニングの改善:広帯域ニューラルネットワークにおける(ReLU)非線形アクティベーションからのフリーランチ
- Authors: Chaoyue Liu, Han Bi, Like Hui, Xiao Liu,
- Abstract要約: 本稿では,ReLUの活性化が勾配法における最悪の収束率の向上に役立つことを示す。
NTK条件数と収束理論の密接な関係から,非線形活性化は勾配法における最悪の収束率の向上に役立つことが示唆された。
- 参考スコア(独自算出の注目度): 6.399229363353879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nonlinear activation functions are widely recognized for enhancing the expressivity of neural networks, which is the primary reason for their widespread implementation. In this work, we focus on ReLU activation and reveal a novel and intriguing property of nonlinear activations. By comparing enabling and disabling the nonlinear activations in the neural network, we demonstrate their specific effects on wide neural networks: (a) better feature separation, i.e., a larger angle separation for similar data in the feature space of model gradient, and (b) better NTK conditioning, i.e., a smaller condition number of neural tangent kernel (NTK). Furthermore, we show that the network depth (i.e., with more nonlinear activation operations) further amplifies these effects; in addition, in the infinite-width-then-depth limit, all data are equally separated with a fixed angle in the model gradient feature space, regardless of how similar they are originally in the input space. Note that, without the nonlinear activation, i.e., in a linear neural network, the data separation remains the same as for the original inputs and NTK condition number is equivalent to the Gram matrix, regardless of the network depth. Due to the close connection between NTK condition number and convergence theories, our results imply that nonlinear activation helps to improve the worst-case convergence rates of gradient based methods.
- Abstract(参考訳): 非線形活性化関数は、ニューラルネットワークの表現性を高めるために広く認識されている。
本研究では,ReLU活性化に着目し,非線形活性化の新規かつ興味深い性質を明らかにする。
ニューラルネットワークにおける非線形アクティベーションの有効化と無効化を比較することで、広範ニューラルネットワークに対するそれらの具体的な効果を実証する。
(a)より優れた特徴分離、すなわちモデル勾配の特徴空間における類似データに対するより大きな角度分離、及び
(b)より優れたNTKコンディショニング、すなわち、ニューラル・タンジェント・カーネル(NTK)のより少ない条件数である。
さらに、ネットワーク深度(例えば、より非線形なアクティベーション操作)は、これらの効果をさらに増幅することを示し、さらに、無限幅のthen-depth制限では、全てのデータは、もともと入力空間に類似しているかどうかに関わらず、モデル勾配特徴空間における固定角度で等しく分離される。
非線形活性化がない、すなわち線形ニューラルネットワークでは、データ分離は元の入力と同じであり、NTK条件番号はネットワークの深さに関係なくグラム行列と同値である。
NTK条件数と収束理論の密接な関係から,非線形活性化は勾配法における最悪の収束率の向上に役立つことが示唆された。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Using Linear Regression for Iteratively Training Neural Networks [4.873362301533824]
ニューラルネットワークの重みとバイアスを学習するための単純な線形回帰に基づくアプローチを提案する。
このアプローチは、より大きく、より複雑なアーキテクチャに向けられている。
論文 参考訳(メタデータ) (2023-07-11T11:53:25Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - Optimal rates of approximation by shallow ReLU$^k$ neural networks and
applications to nonparametric regression [12.21422686958087]
本研究では、浅いReLU$k$のニューラルネットワークに対応する変動空間の近似能力について検討する。
滑らかさの低い関数に対しては、変動ノルムの観点から近似率が確立される。
浅層ニューラルネットワークは,H"古い関数の学習に最適な最小値が得られることを示す。
論文 参考訳(メタデータ) (2023-04-04T06:35:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。