論文の概要: On the linearity of large non-linear models: when and why the tangent
kernel is constant
- arxiv url: http://arxiv.org/abs/2010.01092v3
- Date: Sat, 20 Feb 2021 02:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:49:10.324137
- Title: On the linearity of large non-linear models: when and why the tangent
kernel is constant
- Title(参考訳): 大規模非線形モデルの線型性について : 接核が定数である時期と理由
- Authors: Chaoyue Liu, Libin Zhu, Mikhail Belkin
- Abstract要約: 我々は、その幅が無限に近づくにつれて、あるニューラルネットワークの線形性への移行という驚くべき現象に光を当てた。
モデルの線形性への遷移と等価に、ネットワークのヘッセン行列のノルムのスケーリング特性から、(神経)接核(NTK)の定数が生じることを示す。
- 参考スコア(独自算出の注目度): 20.44438519046223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to shed light on the remarkable phenomenon of
transition to linearity of certain neural networks as their width approaches
infinity. We show that the transition to linearity of the model and,
equivalently, constancy of the (neural) tangent kernel (NTK) result from the
scaling properties of the norm of the Hessian matrix of the network as a
function of the network width. We present a general framework for understanding
the constancy of the tangent kernel via Hessian scaling applicable to the
standard classes of neural networks. Our analysis provides a new perspective on
the phenomenon of constant tangent kernel, which is different from the widely
accepted "lazy training". Furthermore, we show that the transition to linearity
is not a general property of wide neural networks and does not hold when the
last layer of the network is non-linear. It is also not necessary for
successful optimization by gradient descent.
- Abstract(参考訳): この研究の目的は、幅が無限に近づくにつれて、あるニューラルネットワークの線形性への遷移という驚くべき現象に光を当てることである。
ネットワーク幅の関数としてのネットワークのヘッセン行列のノルムのスケーリング特性から,モデルの線形性,および(神経)接接核(ntk)の定数への遷移が導かれることを示した。
本稿では,ニューラルネットワークの標準クラスに適用可能なヘッセンスケーリングを通じて,タンジェントカーネルの一貫性を理解するための一般的なフレームワークを提案する。
我々の分析は、広く受け入れられている「怠慢な訓練」とは異なる、一定の接するカーネルの現象に関する新しい視点を提供する。
さらに、線形性への遷移は広範ニューラルネットワークの一般的な性質ではなく、ネットワークの最後の層が非線形である場合に保たないことを示す。
勾配降下による最適化を成功させる必要もない。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Nonlinear Advantage: Trained Networks Might Not Be As Complex as You
Think [0.0]
性能崩壊前の線形性に対するネットワーク機能をいかに単純化できるかを考察する。
訓練後, 高い性能を維持しつつ, かなりの数の非線形ユニットを線形化できることが判明した。
空間的圧力下では、残りの非線形ユニットは異なる構造に整理され、ほぼ一定の有効深さと幅のコアネットを形成する。
論文 参考訳(メタデータ) (2022-11-30T17:24:14Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Transition to Linearity of General Neural Networks with Directed Acyclic
Graph Architecture [20.44438519046223]
我々は、任意の有向非巡回グラフに対応するフィードフォワードニューラルネットワークが、その"幅"が無限大に近づくにつれて、線形性へ遷移することを示す。
本研究は,線形性への遷移を基礎とする数学的構造を同定し,ニューラルネットワークカーネルの線形性や整合性への遷移を特徴付けることを目的とした最近の多くの研究を一般化するものである。
論文 参考訳(メタデータ) (2022-05-24T04:57:35Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Transition to Linearity of Wide Neural Networks is an Emerging Property
of Assembling Weak Models [20.44438519046223]
線形出力層を持つ広帯域ニューラルネットワークは、ニアリニアであり、ニアコンスタント・ニューラル・タンジェント・カーネル(NTK)を有することが示されている。
広義のニューラルネットワークの線形性は、実際には、多数の多様な「弱」サブモデルを組み立てる新たな性質であり、いずれもアセンブリを支配していないことを示す。
論文 参考訳(メタデータ) (2022-03-10T01:27:01Z) - Deep orthogonal linear networks are shallow [9.434391240650266]
勾配勾配降下による重みのトレーニングは、勾配勾配降下による全因子化のトレーニングと等価であることを示す。
これは、この設定では過度なパラメータ化と暗黙のバイアスがまったく影響しないことを意味する。
論文 参考訳(メタデータ) (2020-11-27T16:57:19Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。