論文の概要: Gradient descent induces alignment between weights and the empirical NTK
for deep non-linear networks
- arxiv url: http://arxiv.org/abs/2402.05271v1
- Date: Wed, 7 Feb 2024 21:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:22:15.055063
- Title: Gradient descent induces alignment between weights and the empirical NTK
for deep non-linear networks
- Title(参考訳): 勾配降下は深い非線形ネットワークに対する重みと経験的NTKのアライメントを誘導する
- Authors: Daniel Beaglehole, Ioannis Mitliagkas, Atish Agarwala
- Abstract要約: トレーニング中に相関関係が生じる理由はよく分かっていない。
早期訓練時にNFA開発速度を解析的に予測できることを示す。
任意の層におけるNFA相関を高めるための簡単な介入を導入し、学習した特徴の質を劇的に向上させる。
- 参考スコア(独自算出の注目度): 14.64687031368155
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Understanding the mechanisms through which neural networks extract statistics
from input-label pairs is one of the most important unsolved problems in
supervised learning. Prior works have identified that the gram matrices of the
weights in trained neural networks of general architectures are proportional to
the average gradient outer product of the model, in a statement known as the
Neural Feature Ansatz (NFA). However, the reason these quantities become
correlated during training is poorly understood. In this work, we explain the
emergence of this correlation. We identify that the NFA is equivalent to
alignment between the left singular structure of the weight matrices and a
significant component of the empirical neural tangent kernels associated with
those weights. We establish that the NFA introduced in prior works is driven by
a centered NFA that isolates this alignment. We show that the speed of NFA
development can be predicted analytically at early training times in terms of
simple statistics of the inputs and labels. Finally, we introduce a simple
intervention to increase NFA correlation at any given layer, which dramatically
improves the quality of features learned.
- Abstract(参考訳): ニューラルネットワークが入力ラベルペアから統計を抽出するメカニズムを理解することは、教師付き学習において最も重要な未解決問題の1つである。
以前の研究では、一般的なアーキテクチャのトレーニングニューラルネットワークにおける重量のグラム行列がモデルの平均勾配外積に比例していることが、Neural Feature Ansatz (NFA) として知られる声明で確認されている。
しかし、これらの量が訓練中に相関する理由はよく分かっていない。
本稿では,この相関関係の出現を説明する。
nfaは、重み行列の左特異構造と、それらの重みに関連する経験的神経接核の重要な構成要素の間のアライメントと等価である。
先行研究で導入されたNFAは、このアライメントを分離する中心的なNFAによって駆動される。
入力やラベルの単純な統計から,NFA開発速度を早期学習時に解析的に予測できることが示唆された。
最後に,任意の層におけるNFA相関を高めるための簡単な介入を導入し,学習した特徴の質を劇的に向上させる。
関連論文リスト
- Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems [1.0878040851638]
本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
論文 参考訳(メタデータ) (2024-01-08T16:44:23Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Hierarchical Gaussian Process Priors for Bayesian Neural Network Weights [16.538973310830414]
望ましい事前分類は、重みをコンパクトに表現し、重み間の相関を捉え、事前知識を含ませることである。
i) 相関重み構造を柔軟にエンコード可能な単位埋め込みに基づくネットワーク重みのプロセスベース階層モデルと,(ii) 関数空間の規則化に便利な入力依存型の重み前のモデルを提案する。
これらのモデルは、分布外データに基づいて望ましいテスト時間不確実性推定を提供し、カーネルを用いたニューラルネットワークの帰納バイアスをモデル化する事例を示し、アクティブラーニングベンチマークで競合予測性能を示す。
論文 参考訳(メタデータ) (2020-02-10T07:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。