論文の概要: Infinite attention: NNGP and NTK for deep attention networks
- arxiv url: http://arxiv.org/abs/2006.10540v1
- Date: Thu, 18 Jun 2020 13:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 12:49:08.420547
- Title: Infinite attention: NNGP and NTK for deep attention networks
- Title(参考訳): ディープ・アテンション・ネットワークのためのNNGPとNTK
- Authors: Jiri Hron and Yasaman Bahri and Jascha Sohl-Dickstein and Roman Novak
- Abstract要約: 広範ニューラルネットワーク(NN)とガウス過程(GP)の等価性を同定する。
ガウス的でない振る舞いを誘発する単一ヘッドアテンションとは異なり、多ヘッドアテンションアーキテクチャは、ヘッドの数が無限大になる傾向があるため、GPとして振る舞う。
本稿では,NNGP/NTKモデルの可変長列に適用可能なニューラルタンジェンツライブラリの新機能を紹介する。
- 参考スコア(独自算出の注目度): 38.55012122588628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing amount of literature on the relationship between wide
neural networks (NNs) and Gaussian processes (GPs), identifying an equivalence
between the two for a variety of NN architectures. This equivalence enables,
for instance, accurate approximation of the behaviour of wide Bayesian NNs
without MCMC or variational approximations, or characterisation of the
distribution of randomly initialised wide NNs optimised by gradient descent
without ever running an optimiser. We provide a rigorous extension of these
results to NNs involving attention layers, showing that unlike single-head
attention, which induces non-Gaussian behaviour, multi-head attention
architectures behave as GPs as the number of heads tends to infinity. We
further discuss the effects of positional encodings and layer normalisation,
and propose modifications of the attention mechanism which lead to improved
results for both finite and infinitely wide NNs. We evaluate attention kernels
empirically, leading to a moderate improvement upon the previous
state-of-the-art on CIFAR-10 for GPs without trainable kernels and advanced
data preprocessing. Finally, we introduce new features to the Neural Tangents
library (Novak et al., 2020) allowing applications of NNGP/NTK models, with and
without attention, to variable-length sequences, with an example on the IMDb
reviews dataset.
- Abstract(参考訳): 広範ニューラルネットワーク(NN)とガウス過程(GP)の関係に関する文献が増えている。
この等価性は例えば、MCMCや変動近似のないワイドベイズNNの挙動の正確な近似や、オプティマイザを実行せずに勾配降下によって最適化されたランダムに初期化されたワイドNNの分布の特徴付けを可能にする。
注意層を含むnnsにこれらの結果を厳密に拡張し、非ゲージ的行動を引き起こす単頭注意とは異なり、多頭注意アーキテクチャは頭数が無限になるにつれてgpsとして振る舞うことを示した。
さらに、位置エンコーディングと層正規化の効果について検討し、有限および無限幅のNNに対して改善をもたらすアテンション機構の修正を提案する。
我々は注意カーネルを実証的に評価し、トレーニング可能なカーネルや先進的なデータ前処理を伴わないGP用CIFAR-10における先行技術の改善につながった。
最後に、NNGP/NTKモデルの可変長シーケンスへの適用を可能にするNeural Tangentsライブラリ(Novak et al., 2020)の新機能を紹介し、IMDbレビューデータセットの例を挙げる。
関連論文リスト
- Observation Noise and Initialization in Wide Neural Networks [9.163214210191814]
任意の事前平均関数を可能にするテキストシフトネットワークを導入する。
我々の理論的な洞察は、観測ノイズとネットワークアーキテクチャの異なる値に関する実験によって実証的に検証されている。
論文 参考訳(メタデータ) (2025-02-03T17:39:45Z) - Graph Neural Networks Do Not Always Oversmooth [46.57665708260211]
グラフ畳み込みネットワーク (GCN) における過剰スムーシングを, 無限に多くの隠れた特徴の極限におけるガウス過程 (GP) の等価性を用いて検討する。
ネットワークの初期重みが十分に大きな場合、GCNは過度に過度に変化せず、ノード特徴は大きな深さでも情報的のままである。
論文 参考訳(メタデータ) (2024-06-04T12:47:13Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Spherical Inducing Features for Orthogonally-Decoupled Gaussian
Processes [7.4468224549568705]
ガウス過程(GP)は、表現を学習する能力の欠如により、ディープニューラルネットワーク(NN)と比較されることがしばしばある。
GPとディープNNのギャップを埋める最近の試みは、新しいタイプのドメイン間変分GPを生み出し、誘導変数はフィードフォワードNNの隠れ単位に対応する。
論文 参考訳(メタデータ) (2023-04-27T09:00:02Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Deep Stable neural networks: large-width asymptotics and convergence
rates [3.0108936184913295]
NNの層上に幅が無限大になるにつれて、適切な再スケールされたディープ・スタブル・NNは安定SPに弱収束することを示す。
非三角形NNの構造のため、これは非標準問題であり、新しい自己完結型帰納的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-02T12:18:00Z) - Weighted Neural Tangent Kernel: A Generalized and Improved
Network-Induced Kernel [20.84988773171639]
Neural Tangent Kernel(NTK)は、勾配降下によって訓練された過剰パラメーターニューラルネットワーク(NN)の進化を記述することで、近年、激しい研究を惹きつけている。
Weighted Neural Tangent Kernel (WNTK) は、一般化された改良されたツールであり、異なる勾配の下でパラメータ化されたNNのトレーニングダイナミクスをキャプチャすることができる。
提案する重み更新アルゴリズムでは,実験値と解析値の両方が,数値実験において対応するntkを上回っている。
論文 参考訳(メタデータ) (2021-03-22T03:16:20Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。