論文の概要: Deep Equilibrium Models are Almost Equivalent to Not-so-deep Explicit Models for High-dimensional Gaussian Mixtures
- arxiv url: http://arxiv.org/abs/2402.02697v2
- Date: Sun, 19 May 2024 11:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:20:37.997239
- Title: Deep Equilibrium Models are Almost Equivalent to Not-so-deep Explicit Models for High-dimensional Gaussian Mixtures
- Title(参考訳): 高次元ガウス混合に対する深部平衡モデルと非深さ明示的モデルにほぼ同値である
- Authors: Zenan Ling, Longbo Li, Zhanbo Feng, Yixuan Zhang, Feng Zhou, Robert C. Qiu, Zhenyu Liao,
- Abstract要約: インプリシトニューラルネットワークモデル(DEQ)は、様々なタスクにおいて顕著な成功を収めている。
これらのインプリシットCKとNTKのスペクトル挙動は、DECの活性化関数と初期重量分散に依存することを示す。
提案手法では,DEC と同じ CK あるいは NTK を生成するために,浅い明示的ネットワークを慎重に設計できることを示す。
- 参考スコア(独自算出の注目度): 20.14786877203241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep equilibrium models (DEQs), as a typical implicit neural network, have demonstrated remarkable success on various tasks. There is, however, a lack of theoretical understanding of the connections and differences between implicit DEQs and explicit neural network models. In this paper, leveraging recent advances in random matrix theory (RMT), we perform an in-depth analysis on the eigenspectra of the conjugate kernel (CK) and neural tangent kernel (NTK) matrices for implicit DEQs, when the input data are drawn from a high-dimensional Gaussian mixture. We prove, in this setting, that the spectral behavior of these Implicit-CKs and NTKs depend on the DEQ activation function and initial weight variances, but only via a system of four nonlinear equations. As a direct consequence of this theoretical result, we demonstrate that a shallow explicit network can be carefully designed to produce the same CK or NTK as a given DEQ. Despite derived here for Gaussian mixture data, empirical results show the proposed theory and design principle also apply to popular real-world datasets.
- Abstract(参考訳): 典型的な暗黙的ニューラルネットワークであるDeep equilibrium Model (DEQ) は、様々なタスクにおいて顕著な成功を収めている。
しかし、暗黙のDECと明示的なニューラルネットワークモデルとの接続と差異に関する理論的理解の欠如がある。
本稿では, ランダム行列理論(RMT)の最近の進歩を活用し, 高次元ガウス混合から入力データを引き出す際に, 暗黙のDQに対して共役核(CK)とニューラル接核(NTK)の固有スペクトルを詳細に解析する。
この設定において、これらのインプリシットCKとNTKのスペクトル挙動は、DECの活性化関数と初期重み分散に依存するが、4つの非線形方程式の系によってのみ証明する。
この理論結果の直接的な結果として、浅い明示的ネットワークを、与えられたDECと同じCKまたはNTKを生成するように慎重に設計できることが示される。
ここではガウス混合データに導かれるが、実証的な結果は、提案された理論と設計原則が一般的な実世界のデータセットにも適用されることを示している。
関連論文リスト
- Fourier Neural Differential Equations for learning Quantum Field
Theories [57.11316818360655]
量子場理論は相互作用ハミルトニアンによって定義され、散乱行列によって実験データにリンクされる。
本稿では,NDEモデルを用いて理論,スカラー・ユーカワ理論,スカラー量子電磁力学を学習する。
理論の相互作用ハミルトニアンは、ネットワークパラメータから抽出することができる。
論文 参考訳(メタデータ) (2023-11-28T22:11:15Z) - Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Signatures of Chaos in Non-integrable Models of Quantum Field Theory [0.0]
1+1)D量子場理論(QFT)モデルにおける量子カオスのシグネチャについて検討する。
我々は、二重正弦ガードンに焦点をあて、巨大な正弦ガードンと$phi4$モデルの研究も行っている。
論文 参考訳(メタデータ) (2020-12-15T18:56:20Z) - The Gaussian equivalence of generative models for learning with shallow
neural networks [30.47878306277163]
本研究では,事前学習した生成モデルから得られたデータに基づいて学習したニューラルネットワークの性能について検討する。
この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。
これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
論文 参考訳(メタデータ) (2020-06-25T21:20:09Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Learning CHARME models with neural networks [1.5362025549031046]
我々はCHARME(Conditional Heteroscedastic Autoregressive Mixture of Experts)と呼ばれるモデルを考える。
そこで本研究では,NNに基づく自己回帰関数の学習理論を開発した。
論文 参考訳(メタデータ) (2020-02-08T21:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。