論文の概要: Tensor Programs IIb: Architectural Universality of Neural Tangent Kernel
Training Dynamics
- arxiv url: http://arxiv.org/abs/2105.03703v1
- Date: Sat, 8 May 2021 14:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:27:29.249253
- Title: Tensor Programs IIb: Architectural Universality of Neural Tangent Kernel
Training Dynamics
- Title(参考訳): Tensor Programs IIb: Neural Tangent Kernel Training Dynamicsのアーキテクチャ的普遍性
- Authors: Greg Yang, Etai Littwin
- Abstract要約: 訓練中、同じニューラルネットワーク(いわゆるntkパラメトリゼーション)が、カーネルが無限幅のntkである関数空間におけるカーネル降下ダイナミクスに従うことを示している。
これは NTK の振る舞いの *architectural universality* の証明を完成させる。
- 参考スコア(独自算出の注目度): 23.527993690887257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Yang (2020a) recently showed that the Neural Tangent Kernel (NTK) at
initialization has an infinite-width limit for a large class of architectures
including modern staples such as ResNet and Transformers. However, their
analysis does not apply to training. Here, we show the same neural networks (in
the so-called NTK parametrization) during training follow a kernel gradient
descent dynamics in function space, where the kernel is the infinite-width NTK.
This completes the proof of the *architectural universality* of NTK behavior.
To achieve this result, we apply the Tensor Programs technique: Write the
entire SGD dynamics inside a Tensor Program and analyze it via the Master
Theorem. To facilitate this proof, we develop a graphical notation for Tensor
Programs.
- Abstract(参考訳): Yang (2020a) は、最近、初期化時の Neural Tangent Kernel (NTK) が、ResNet や Transformers などの最新のステープルを含む大規模なアーキテクチャの無限幅制限を持つことを示した。
しかし、その分析は訓練には適用されない。
ここでは、トレーニング中の同じニューラルネットワーク(いわゆるNTKパラメトリゼーション)が、カーネルが無限幅NTKである関数空間におけるカーネル勾配降下ダイナミクスに従うことを示す。
これは NTK の振る舞いの *architectural universality* の証明を完成させる。
テンソルプログラムの内部でSGDのダイナミクス全体を記述し、マスター定理を用いて解析する。
この証明を容易にするために,テンソルプログラムのグラフィカル表記法を開発した。
関連論文リスト
- Is Solving Graph Neural Tangent Kernel Equivalent to Training Graph
Neural Network? [9.599018775881275]
理論的深層学習の傾向は、なぜニューラルタンジェントカーネル(NTK) [jgh18]を介してディープラーニングが機能するのかを理解することである。
GNTKは,多層ニューラルネットワークのトレーニングに勾配勾配を用いたカーネル手法である。
GNTKは各種バイオインフォマティクスデータセットのGNNと同様の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-14T06:24:33Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Demystifying the Neural Tangent Kernel from a Practical Perspective: Can
it be trusted for Neural Architecture Search without training? [37.29036906991086]
本研究では,ニューラルタンジェントカーネル(NTK)から導出できるいくつかの初期化指標を再検討する。
現代のニューラルアーキテクチャは、高い非線形特性を示しており、NTKベースのメトリクスは、ある程度のトレーニングを伴わずに、アーキテクチャのパフォーマンスを確実に見積もることができる。
これはNTKに基づく新しい計量であり、その固有な定式化により、現代のニューラルアーキテクチャに存在する多くの非線形優位性を捉えることができる。
論文 参考訳(メタデータ) (2022-03-28T08:43:04Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Towards an Understanding of Residual Networks Using Neural Tangent
Hierarchy (NTH) [2.50686294157537]
グラディエント降下は、目的関数の無限の性質に拘わらず、ディープトレーニングネットワークの時間損失をゼロにする。
本稿では,Deep Residual Network (ResNet) を用いた有限幅ResNetに対するNTKのニューラルダイナミクスの訓練を行った。
我々の分析は、特定の神経結合構造であるResNetがその勝利の主因であることを強く示唆している。
論文 参考訳(メタデータ) (2020-07-07T18:08:16Z) - Tensor Programs II: Neural Tangent Kernel for Any Architecture [23.166601000371728]
我々は、*アーキテクチャ*のランダムに決定論的ニューラルネットワークが、ネットワーク幅が無限大になる傾向があるため、そのTangent Kernel(NTK)が限界に収束していることを証明する。
本稿では,再帰型ニューラルネットワーク,トランスフォーマー,バッチ正規化の無限幅NTKの参照実装について述べる。
論文 参考訳(メタデータ) (2020-06-25T16:45:23Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。