論文の概要: Gradient descent induces alignment between weights and the empirical NTK
for deep non-linear networks
- arxiv url: http://arxiv.org/abs/2402.05271v1
- Date: Wed, 7 Feb 2024 21:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:22:15.055063
- Title: Gradient descent induces alignment between weights and the empirical NTK
for deep non-linear networks
- Title(参考訳): 勾配降下は深い非線形ネットワークに対する重みと経験的NTKのアライメントを誘導する
- Authors: Daniel Beaglehole, Ioannis Mitliagkas, Atish Agarwala
- Abstract要約: トレーニング中に相関関係が生じる理由はよく分かっていない。
早期訓練時にNFA開発速度を解析的に予測できることを示す。
任意の層におけるNFA相関を高めるための簡単な介入を導入し、学習した特徴の質を劇的に向上させる。
- 参考スコア(独自算出の注目度): 14.64687031368155
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Understanding the mechanisms through which neural networks extract statistics
from input-label pairs is one of the most important unsolved problems in
supervised learning. Prior works have identified that the gram matrices of the
weights in trained neural networks of general architectures are proportional to
the average gradient outer product of the model, in a statement known as the
Neural Feature Ansatz (NFA). However, the reason these quantities become
correlated during training is poorly understood. In this work, we explain the
emergence of this correlation. We identify that the NFA is equivalent to
alignment between the left singular structure of the weight matrices and a
significant component of the empirical neural tangent kernels associated with
those weights. We establish that the NFA introduced in prior works is driven by
a centered NFA that isolates this alignment. We show that the speed of NFA
development can be predicted analytically at early training times in terms of
simple statistics of the inputs and labels. Finally, we introduce a simple
intervention to increase NFA correlation at any given layer, which dramatically
improves the quality of features learned.
- Abstract(参考訳): ニューラルネットワークが入力ラベルペアから統計を抽出するメカニズムを理解することは、教師付き学習において最も重要な未解決問題の1つである。
以前の研究では、一般的なアーキテクチャのトレーニングニューラルネットワークにおける重量のグラム行列がモデルの平均勾配外積に比例していることが、Neural Feature Ansatz (NFA) として知られる声明で確認されている。
しかし、これらの量が訓練中に相関する理由はよく分かっていない。
本稿では,この相関関係の出現を説明する。
nfaは、重み行列の左特異構造と、それらの重みに関連する経験的神経接核の重要な構成要素の間のアライメントと等価である。
先行研究で導入されたNFAは、このアライメントを分離する中心的なNFAによって駆動される。
入力やラベルの単純な統計から,NFA開発速度を早期学習時に解析的に予測できることが示唆された。
最後に,任意の層におけるNFA相関を高めるための簡単な介入を導入し,学習した特徴の質を劇的に向上させる。
関連論文リスト
- Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Learning and Generalization in Overparameterized Normalizing Flows [13.074242275886977]
正規化フロー(NF)は教師なし学習において重要なモデルのクラスである。
既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメトリゼーションがトレーニングを損なうという理論的および実証的な証拠を提供する。
ネットワークが過度にパラメータ化されている場合、最小限の仮定の下で、制約のないNFが妥当なデータ分布を効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-19T17:11:42Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z) - Hierarchical Gaussian Process Priors for Bayesian Neural Network Weights [16.538973310830414]
望ましい事前分類は、重みをコンパクトに表現し、重み間の相関を捉え、事前知識を含ませることである。
i) 相関重み構造を柔軟にエンコード可能な単位埋め込みに基づくネットワーク重みのプロセスベース階層モデルと,(ii) 関数空間の規則化に便利な入力依存型の重み前のモデルを提案する。
これらのモデルは、分布外データに基づいて望ましいテスト時間不確実性推定を提供し、カーネルを用いたニューラルネットワークの帰納バイアスをモデル化する事例を示し、アクティブラーニングベンチマークで競合予測性能を示す。
論文 参考訳(メタデータ) (2020-02-10T07:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。