論文の概要: Feature learning as alignment: a structural property of gradient descent in non-linear neural networks
- arxiv url: http://arxiv.org/abs/2402.05271v3
- Date: Mon, 24 Jun 2024 15:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:01:18.236080
- Title: Feature learning as alignment: a structural property of gradient descent in non-linear neural networks
- Title(参考訳): アライメントとしての特徴学習--非線形ニューラルネットワークにおける勾配降下の構造特性
- Authors: Daniel Beaglehole, Ioannis Mitliagkas, Atish Agarwala,
- Abstract要約: ニューラルネットワークは特徴学習を通じて入力ラベル対から統計を抽出することを示す。
このアライメントは,SGDによって誘導される重量変化と,前活性化機能との相互作用によって引き起こされることが確認された。
我々は、任意の層におけるNFA相関を劇的に向上させ、学習した特徴の質を向上させるための単純な最適化ルールを導入する。
- 参考スコア(独自算出の注目度): 13.032185349152492
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Understanding the mechanisms through which neural networks extract statistics from input-label pairs through feature learning is one of the most important unsolved problems in supervised learning. Prior works demonstrated that the gram matrices of the weights (the neural feature matrices, NFM) and the average gradient outer products (AGOP) become correlated during training, in a statement known as the neural feature ansatz (NFA). Through the NFA, the authors introduce mapping with the AGOP as a general mechanism for neural feature learning. However, these works do not provide a theoretical explanation for this correlation or its origins. In this work, we further clarify the nature of this correlation, and explain its emergence. We show that this correlation is equivalent to alignment between the left singular structure of the weight matrices and the newly defined pre-activation tangent features at each layer. We further establish that the alignment is driven by the interaction of weight changes induced by SGD with the pre-activation features, and analyze the resulting dynamics analytically at early times in terms of simple statistics of the inputs and labels. Finally, motivated by the observation that the NFA is driven by this centered correlation, we introduce a simple optimization rule that dramatically increases the NFA correlations at any given layer and improves the quality of features learned.
- Abstract(参考訳): ニューラルネットワークが特徴学習を通じて入力-ラベルペアから統計を抽出するメカニズムを理解することは、教師あり学習において最も重要な未解決問題の1つである。
以前の研究では、重みのグラム行列(神経特徴行列、NFM)と平均勾配外積(AGOP)がトレーニング中に相関することを示した。
NFAを通じて、著者らは神経機能学習の一般的なメカニズムとしてAGOPとのマッピングを紹介した。
しかし、これらの研究は、この相関関係やその起源に関する理論的説明を与えていない。
本研究では,この相関の性質をさらに明らかにし,その出現を説明する。
この相関関係は, 重み行列の左特異構造と各層における新たに定義された事前活性化接点特徴との整合性に等価であることを示す。
さらに,SGDにより誘導される重み変化と事前活性化特徴との相互作用によって,アライメントが駆動されることを確認し,入力やラベルの単純な統計量の観点から,早期に解析的に結果のダイナミクスを分析する。
最後に、NFAが中心となる相関によって駆動されるという観察に動機付けられ、任意の層におけるNFA相関を劇的に増加させ、学習した特徴の質を向上させるための単純な最適化ルールを導入する。
関連論文リスト
- Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems [1.0878040851638]
本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
論文 参考訳(メタデータ) (2024-01-08T16:44:23Z) - The Influence of Learning Rule on Representation Dynamics in Wide Neural
Networks [18.27510863075184]
我々は、フィードバックアライメント(FA)、ダイレクトフィードバックアライメント(DFA)、エラー変調ヘビアン学習(Hebb)で訓練された無限幅の深い勾配ネットワークを解析する。
これらの学習規則のそれぞれに対して、無限幅での出力関数の進化は、時間変化の有効なニューラルネットワークカーネル(eNTK)によって制御されることを示す。
遅延訓練限界では、このeNTKは静的であり、進化しないが、リッチ平均場状態では、このカーネルの進化は動的平均場理論(DMFT)と自己整合的に決定することができる。
論文 参考訳(メタデータ) (2022-10-05T11:33:40Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Hierarchical Gaussian Process Priors for Bayesian Neural Network Weights [16.538973310830414]
望ましい事前分類は、重みをコンパクトに表現し、重み間の相関を捉え、事前知識を含ませることである。
i) 相関重み構造を柔軟にエンコード可能な単位埋め込みに基づくネットワーク重みのプロセスベース階層モデルと,(ii) 関数空間の規則化に便利な入力依存型の重み前のモデルを提案する。
これらのモデルは、分布外データに基づいて望ましいテスト時間不確実性推定を提供し、カーネルを用いたニューラルネットワークの帰納バイアスをモデル化する事例を示し、アクティブラーニングベンチマークで競合予測性能を示す。
論文 参考訳(メタデータ) (2020-02-10T07:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。