論文の概要: Tensor Programs II: Neural Tangent Kernel for Any Architecture
- arxiv url: http://arxiv.org/abs/2006.14548v4
- Date: Mon, 30 Nov 2020 03:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:37:39.324848
- Title: Tensor Programs II: Neural Tangent Kernel for Any Architecture
- Title(参考訳): Tensor Programs II: あらゆるアーキテクチャのためのニューラルネットワークカーネル
- Authors: Greg Yang
- Abstract要約: 我々は、*アーキテクチャ*のランダムに決定論的ニューラルネットワークが、ネットワーク幅が無限大になる傾向があるため、そのTangent Kernel(NTK)が限界に収束していることを証明する。
本稿では,再帰型ニューラルネットワーク,トランスフォーマー,バッチ正規化の無限幅NTKの参照実装について述べる。
- 参考スコア(独自算出の注目度): 23.166601000371728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove that a randomly initialized neural network of *any architecture* has
its Tangent Kernel (NTK) converge to a deterministic limit, as the network
widths tend to infinity. We demonstrate how to calculate this limit. In prior
literature, the heuristic study of neural network gradients often assumes every
weight matrix used in forward propagation is independent from its transpose
used in backpropagation (Schoenholz et al. 2017). This is known as the
*gradient independence assumption (GIA)*. We identify a commonly satisfied
condition, which we call *Simple GIA Check*, such that the NTK limit
calculation based on GIA is correct. Conversely, when Simple GIA Check fails,
we show GIA can result in wrong answers. Our material here presents the NTK
results of Yang (2019a) in a friendly manner and showcases the *tensor
programs* technique for understanding wide neural networks. We provide
reference implementations of infinite-width NTKs of recurrent neural network,
transformer, and batch normalization at https://github.com/thegregyang/NTK4A.
- Abstract(参考訳): 任意のアーキテクチャのランダムに初期化されたニューラルネットワーク*は、ネットワーク幅が無限大になる傾向があるため、そのTangent Kernel(NTK)が決定論的極限に収束することを示す。
この限界を計算する方法を実証する。
以前の文献では、ニューラルネットワーク勾配のヒューリスティックな研究は、前方伝播で使われるすべての重み行列は、バックプロパゲーションで使われるトランスポーズとは独立であるとしばしば仮定している(schoenholz et al. 2017)。
これは *gradient independence assumption (gia)* として知られている。
GIA に基づく NTK 制限計算が正しいことを *Simple GIA Check* と呼ぶ一般的な条件を同定する。
逆に、単純なGAAチェックが失敗した場合、GAAが間違った答えをもたらす可能性があることを示す。
本稿では,Yang (2019a) のNTK結果を親しみやすい方法で提示し,広義のニューラルネットワークを理解するための *tensor program* テクニックを紹介する。
我々は、リカレントニューラルネットワーク、トランスフォーマー、バッチ正規化の無限幅ntkをhttps://github.com/thegregyang/ntk4aで参照実装する。
関連論文リスト
- LinSATNet: The Positive Linear Satisfiability Neural Networks [116.65291739666303]
本稿では,ニューラルネットワークに人気の高い正の線形満足度を導入する方法について検討する。
本稿では,古典的なシンクホーンアルゴリズムを拡張し,複数の辺分布の集合を共同で符号化する,最初の微分可能満足層を提案する。
論文 参考訳(メタデータ) (2024-07-18T22:05:21Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Fast Finite Width Neural Tangent Kernel [47.57136433797996]
ニューラルネットワークのJacobianは、ディープラーニングの研究の中心的な対象として登場した。
有限幅NTKは計算に費用がかかることで有名である。
有限幅NTKの計算およびメモリ要求の指数を変化させる2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T12:18:22Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Neural networks with linear threshold activations: structure and
algorithms [1.795561427808824]
クラス内で表現可能な関数を表現するのに、2つの隠れたレイヤが必要であることを示す。
また、クラス内の任意の関数を表すのに必要なニューラルネットワークのサイズについて、正確な境界を与える。
我々は,線形しきい値ネットワークと呼ばれるニューラルネットワークの新たなクラスを提案する。
論文 参考訳(メタデータ) (2021-11-15T22:33:52Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。