論文の概要: Tensor Programs III: Neural Matrix Laws
- arxiv url: http://arxiv.org/abs/2009.10685v3
- Date: Sat, 8 May 2021 12:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:34:29.972940
- Title: Tensor Programs III: Neural Matrix Laws
- Title(参考訳): テンソルプログラムiii:ニューラルマトリクスの法則
- Authors: Greg Yang
- Abstract要約: ランダムマトリクス理論では、NNの幅が無限大になる傾向があるため、ランダムにNNの(事前の活性化)はウェイトから*独立となる。
ここでは、Yang [50,51] で導入されたような、任意のカーネルプログラムに対するマスター定理を証明し、それらの作品で証明されたマスター定理を一般化することによって、FIPを示す。
- 参考スコア(独自算出の注目度): 23.166601000371728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a neural network (NN), *weight matrices* linearly transform inputs into
*preactivations* that are then transformed nonlinearly into *activations*. A
typical NN interleaves multitudes of such linear and nonlinear transforms to
express complex functions. Thus, the (pre-)activations depend on the weights in
an intricate manner. We show that, surprisingly, (pre-)activations of a
randomly initialized NN become *independent* from the weights as the NN's
widths tend to infinity, in the sense of asymptotic freeness in random matrix
theory. We call this the Free Independence Principle (FIP), which has these
consequences: 1) It rigorously justifies the calculation of asymptotic Jacobian
singular value distribution of an NN in Pennington et al. [36,37], essential
for training ultra-deep NNs [48]. 2) It gives a new justification of gradient
independence assumption used for calculating the Neural Tangent Kernel of a
neural network. FIP and these results hold for any neural architecture. We show
FIP by proving a Master Theorem for any Tensor Program, as introduced in Yang
[50,51], generalizing the Master Theorems proved in those works. As warmup
demonstrations of this new Master Theorem, we give new proofs of the semicircle
and Marchenko-Pastur laws, which benchmarks our framework against these
fundamental mathematical results.
- Abstract(参考訳): ニューラルネットワーク(NN)では、*重行列*は入力を *preactivations* に線形に変換し、その後非線形に *activations* に変換する。
典型的なNNは、そのような線型変換と非線形変換をインターリーブして複素関数を表現する。
したがって、(前)活性化は、複雑な方法で重みに依存する。
ランダムに初期化されたNNの(前)アクティベーションは、ランダム行列理論における漸近自由性という意味で、NNの幅が無限大になる傾向があるため、ウェイトから*独立となる。
これを自由独立原則(fip:free independence principle)と呼んでいます。
1)ペニントン等におけるNNの漸近的ヤコビ特異値分布の計算を厳密に正当化する。
超深度NNのトレーニングに不可欠な[36,37]。
2)ニューラルネットワークの神経接核を計算するために使用される勾配独立性仮定の新たな正当性を与える。
FIPとこれらの結果は、どんな神経アーキテクチャにも当てはまる。
我々は、yang [50,51] で導入された任意のテンソルプログラムのマスター定理を証明し、それらの研究で証明されたマスター定理を一般化することによってfipを示す。
この新しいマスター定理のウォームアップデモとして、これらの基本的な数学的結果に対して我々の枠組みをベンチマークする半円法とマルテンコ・パストゥル法の新しい証明を与える。
関連論文リスト
- Multi-layer random features and the approximation power of neural networks [4.178980693837599]
再現カーネルヒルベルト空間はアーキテクチャによって近似できる関数のみを含むことを証明している。
NNGPの積分作用素の固有値が$k-n-frac23$よりも遅く、$k$が固有値の順序である場合、我々の定理はバロンの定理よりも簡潔なニューラルネットワーク近似を保証する。
論文 参考訳(メタデータ) (2024-04-26T14:57:56Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - On the Equivalence between Neural Network and Support Vector Machine [23.174679357972984]
勾配降下によって訓練された無限広ニューラルネットワーク(NN)の力学は、Tangent Neural Kernel(NTK)によって特徴づけられる
NNとサポートベクトルマシン(SVM)の等価性を確立する。
我々の主要な理論的結果は、NNと有限幅境界を持つ$ell$正規化KMの広いファミリーの同値性を確立することである。
論文 参考訳(メタデータ) (2021-11-11T06:05:00Z) - Nonperturbative renormalization for the neural network-QFT
correspondence [0.0]
この文脈で局所性とパワーカウンティングの概念を考察する。
Wetterich-Morris方程式を用いて非摂動的再正規化群を解析する。
我々の目的は、大きな幅の限界を超えたニューラルネットワークの振る舞いを調査するための有用なフォーマリズムを提供することである。
論文 参考訳(メタデータ) (2021-08-03T10:36:04Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Bayesian Perceptron: Towards fully Bayesian Neural Networks [5.5510642465908715]
パーセプトロンのトレーニングと予測は、閉形式のベイズ推論フレームワーク内で実行される。
パーセプトロンの重みと予測はガウス確率変数と見なされる。
このアプローチは計算に高価な勾配計算を必要とせず、さらにシーケンシャルな学習を可能にする。
論文 参考訳(メタデータ) (2020-09-03T15:08:49Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Banach Space Representer Theorems for Neural Networks and Ridge Splines [17.12783792226575]
データに適合するニューラルネットワークで学習した関数の性質を理解するための変分フレームワークを開発する。
有限幅単層ニューラルネットワークが逆問題に対する解であることを示す代表者定理を導出する。
論文 参考訳(メタデータ) (2020-06-10T02:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。