論文の概要: ReLU soothes the NTK condition number and accelerates optimization for
wide neural networks
- arxiv url: http://arxiv.org/abs/2305.08813v1
- Date: Mon, 15 May 2023 17:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:40:01.678761
- Title: ReLU soothes the NTK condition number and accelerates optimization for
wide neural networks
- Title(参考訳): ReLUはNTK条件番号を和らげ、広帯域ニューラルネットワークの最適化を加速する
- Authors: Chaoyue Liu, Like Hui
- Abstract要約: ReLUは、類似したデータを分離し、ニューラル・タンジェント・カーネル(NTK)の条件付けを改善する。
以上の結果から,ReLUの活性化とReLUネットワークの深度は勾配勾配収束率の向上に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 9.374151703899047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rectified linear unit (ReLU), as a non-linear activation function, is well
known to improve the expressivity of neural networks such that any continuous
function can be approximated to arbitrary precision by a sufficiently wide
neural network. In this work, we present another interesting and important
feature of ReLU activation function. We show that ReLU leads to: {\it better
separation} for similar data, and {\it better conditioning} of neural tangent
kernel (NTK), which are closely related. Comparing with linear neural networks,
we show that a ReLU activated wide neural network at random initialization has
a larger angle separation for similar data in the feature space of model
gradient, and has a smaller condition number for NTK. Note that, for a linear
neural network, the data separation and NTK condition number always remain the
same as in the case of a linear model. Furthermore, we show that a deeper ReLU
network (i.e., with more ReLU activation operations), has a smaller NTK
condition number than a shallower one. Our results imply that ReLU activation,
as well as the depth of ReLU network, helps improve the gradient descent
convergence rate, which is closely related to the NTK condition number.
- Abstract(参考訳): 線形化線形単位(rectified linear unit, ReLU)は非線形活性化関数としてよく知られており、任意の連続関数を十分に広いニューラルネットワークで任意の精度で近似することができる。
本稿では,ReLUアクティベーション関数の興味深い特徴と重要な特徴について述べる。
我々は、ReLUが、類似したデータに対してより良い分離と、密接に関連するニューラル・タンジェント・カーネル(NTK)のより良い条件付けをもたらすことを示す。
線形ニューラルネットワークと比較して、ランダム初期化時のReLU活性化ワイドニューラルネットワークは、モデル勾配の特徴空間における類似データに対してより大きな角度分離を有し、NTKの条件数も小さいことを示す。
線形ニューラルネットワークの場合、データ分離とNTK条件数は常に線形モデルの場合と同じである。
さらに、より深いReLUネットワーク(すなわち、より多くのReLUアクティベーション操作を含む)は、浅いネットワークよりもNTK条件数が少ないことを示す。
その結果,ReLUの活性化とReLUネットワークの深度はNTK条件数と密接な関係にある勾配勾配収束率の向上に寄与することが示唆された。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Using Linear Regression for Iteratively Training Neural Networks [4.873362301533824]
ニューラルネットワークの重みとバイアスを学習するための単純な線形回帰に基づくアプローチを提案する。
このアプローチは、より大きく、より複雑なアーキテクチャに向けられている。
論文 参考訳(メタデータ) (2023-07-11T11:53:25Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - Optimal rates of approximation by shallow ReLU$^k$ neural networks and
applications to nonparametric regression [12.21422686958087]
本研究では、浅いReLU$k$のニューラルネットワークに対応する変動空間の近似能力について検討する。
滑らかさの低い関数に対しては、変動ノルムの観点から近似率が確立される。
浅層ニューラルネットワークは,H"古い関数の学習に最適な最小値が得られることを示す。
論文 参考訳(メタデータ) (2023-04-04T06:35:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。