論文の概要: Graph Expansions of Deep Neural Networks and their Universal Scaling Limits
- arxiv url: http://arxiv.org/abs/2407.08459v1
- Date: Thu, 11 Jul 2024 12:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-12 17:29:40.219682
- Title: Graph Expansions of Deep Neural Networks and their Universal Scaling Limits
- Title(参考訳): 深部ニューラルネットワークのグラフ展開と拡張限界
- Authors: Nicola Muca Cirone, Jad Hamdan, Cristopher Salvi,
- Abstract要約: ニューラルネットワークのスケーリング限界を得るための統一的なアプローチを提案する。
ランダム行列理論の属拡大手法を用いる。
我々はジャコビアンの極限特異値分布のモーメントの公式を求める。
- 参考スコア(独自算出の注目度): 3.801509221714223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a unified approach to obtain scaling limits of neural networks using the genus expansion technique from random matrix theory. This approach begins with a novel expansion of neural networks which is reminiscent of Butcher series for ODEs, and is obtained through a generalisation of Fa\`a di Bruno's formula to an arbitrary number of compositions. In this expansion, the role of monomials is played by random multilinear maps indexed by directed graphs whose edges correspond to random matrices, which we call operator graphs. This expansion linearises the effect of the activation functions, allowing for the direct application of Wick's principle to compute the expectation of each of its terms. We then determine the leading contribution to each term by embedding the corresponding graphs onto surfaces, and computing their Euler characteristic. Furthermore, by developing a correspondence between analytic and graphical operations, we obtain similar graph expansions for the neural tangent kernel as well as the input-output Jacobian of the original neural network, and derive their infinite-width limits with relative ease. Notably, we find explicit formulae for the moments of the limiting singular value distribution of the Jacobian. We then show that all of these results hold for networks with more general weights, such as general matrices with i.i.d. entries satisfying moment assumptions, complex matrices and sparse matrices.
- Abstract(参考訳): 本稿では,乱数行列理論からの属拡大手法を用いて,ニューラルネットワークのスケーリング限界を求める統一的な手法を提案する。
このアプローチは、ODE のブッチャー級数に類似したニューラルネットワークの新たな拡張から始まり、ファ=ア・ディ・ブルーノの公式を任意の数の合成に一般化することで得られる。
この拡張において、単項写像の役割は、辺がランダム行列に対応する有向グラフによってインデックス付けされた無作為な多重線型写像によって演じられ、これは作用素グラフと呼ばれる。
この拡張は活性化関数の効果を線形化し、各項の期待値を計算するウィックの原理を直接適用することができる。
次に、対応するグラフを曲面に埋め込み、それらのオイラー特性を計算することによって、各項への主要な寄与を決定する。
さらに、解析演算とグラフィカル演算の対応性を開発することにより、ニューラルネットワークの入力出力ジャコビアンと同様のグラフ展開を求め、その無限幅限界を相対的容易性で導出する。
特に、ジャコビアンの極限特異値分布のモーメントに対する明示的な公式が見つかる。
すると、これらの結果は、モーメント仮定を満たすエントリ、複素行列、スパース行列など、より一般的な重みを持つネットワークに対して成り立つことを示す。
関連論文リスト
- A theory of data variability in Neural Network Bayesian inference [0.70224924046445]
無限広ネットワークの一般化特性をカバーする場理論形式論を提供する。
入力の統計的性質から一般化特性を導出する。
データ可変性は、(varphi3+varphi4$)-理論を思い起こさせる非ガウス的作用をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-31T14:11:32Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Graph Convolutional Networks from the Perspective of Sheaves and the
Neural Tangent Kernel [0.0]
グラフ畳み込みネットワークはディープニューラルネットワークアルゴリズムの一般的なクラスである。
その成功にもかかわらず、グラフ畳み込みネットワークには、過度に滑らかな関数やホモ親近性関数の学習へのバイアスなど、多くの特異な特徴がある。
せん断畳み込みネットワークのニューラル・タンジェント・カーネルの研究により,このギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2022-08-19T12:46:49Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Non-Vacuous Generalisation Bounds for Shallow Neural Networks [5.799808780731661]
我々は、単一の隠蔽層を持つ特定の種類の浅いニューラルネットワークに焦点を当てる。
我々はPAC-ベイジアン理論を通じて新しい一般化を導出する。
ネットワークがMNISTとFashion-MNISTのバニラ勾配勾配降下で訓練される場合,我々の限界は経験的に非空洞である。
論文 参考訳(メタデータ) (2022-02-03T14:59:51Z) - Graph-based Neural Acceleration for Nonnegative Matrix Factorization [0.0]
非負行列分解のためのグラフベースのニューラルアクセラレーション手法について述べる。
我々は,乗算器の交互方向法に基づく更新により,二部構成の自己認識層をインターリーブするグラフニューラルネットワークを訓練する。
実世界のデータセットと2つの実世界のデータセットに対する評価は、より小さな合成インスタンスで教師なしの訓練をしても、かなり加速できることを示している。
論文 参考訳(メタデータ) (2022-02-01T07:52:01Z) - Graph Kernel Neural Networks [53.91024360329517]
本稿では、グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて、標準畳み込み演算子をグラフ領域に拡張することを提案する。
これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。
私たちのアーキテクチャでは,任意の種類のグラフカーネルをプラグインすることが可能です。
論文 参考訳(メタデータ) (2021-12-14T14:48:08Z) - Linear approximability of two-layer neural networks: A comprehensive
analysis based on spectral decay [4.042159113348107]
まず、単一ニューロンの場合について考察し、コルモゴロフ幅で定量化される線形近似性は、共役核の固有値崩壊によって制御されることを示す。
また,2層ニューラルネットワークについても同様の結果が得られた。
論文 参考訳(メタデータ) (2021-08-10T23:30:29Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - On the validity of kernel approximations for orthogonally-initialized
neural networks [14.23089477635398]
ガウス分布重みを持つニューラルネットワークのカーネル関数近似結果を,haar分布確率行列を用いた単層ネットワークに拡張する(再スケーリング可能)。
論文 参考訳(メタデータ) (2021-04-13T00:57:39Z) - Joint Network Topology Inference via Structured Fusion Regularization [70.30364652829164]
結合ネットワークトポロジ推論は、異種グラフ信号から複数のグラフラプラシア行列を学習する標準的な問題を表す。
新規な構造化融合正規化に基づく一般グラフ推定器を提案する。
提案するグラフ推定器は高い計算効率と厳密な理論保証の両方を享受できることを示す。
論文 参考訳(メタデータ) (2021-03-05T04:42:32Z) - Non-asymptotic approximations of neural networks by Gaussian processes [7.56714041729893]
ランダムな重みを持つ場合、ガウス過程によって広いニューラルネットワークが近似される程度を研究する。
ネットワークの幅が無限大になるにつれて、その法則はガウス過程に収束する。
論文 参考訳(メタデータ) (2021-02-17T10:19:26Z) - Double-descent curves in neural networks: a new perspective using
Gaussian processes [9.153116600213641]
ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加とともに下降し、最適数のパラメータに達した後に成長する現象を記述している。
本稿では,ニューラルネットワークガウス過程カーネルのスペクトルの幅依存性として,経験的特徴共分散行列のスペクトル分布を特徴付けるために,ランダム行列理論の手法を用いる。
論文 参考訳(メタデータ) (2021-02-14T20:31:49Z) - Infinitely Wide Tensor Networks as Gaussian Process [1.7894377200944511]
本稿では、無限に広いネットワークとガウス過程の等価性を示す。
我々は無限極限テンソルネットワークに対応するガウス過程を実装し、これらのモデルのサンプルパスをプロットする。
論文 参考訳(メタデータ) (2021-01-07T02:29:15Z) - Graph Gamma Process Generalized Linear Dynamical Systems [60.467040479276704]
実マルチ変数時系列をモデル化するために,グラフガンマ過程(GGP)線形力学系を導入する。
時間的パターン発見のために、モデルの下での潜在表現は、時系列を多変量部分列の同相集合に分解するために使用される。
非零次ノード数が有限であるランダムグラフを用いて、潜時状態遷移行列の空間パターンと次元の両方を定義する。
論文 参考訳(メタデータ) (2020-07-25T04:16:34Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。