論文の概要: Unified Field Theory for Deep and Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2112.05589v1
- Date: Fri, 10 Dec 2021 15:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 15:28:31.958431
- Title: Unified Field Theory for Deep and Recurrent Neural Networks
- Title(参考訳): ディープ・リカレントニューラルネットワークのための統一場理論
- Authors: Kai Segadlo, Bastian Epping, Alexander van Meegen, David Dahmen,
Michael Kr\"amer, Moritz Helias
- Abstract要約: 本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
- 参考スコア(独自算出の注目度): 56.735884560668985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding capabilities and limitations of different network architectures
is of fundamental importance to machine learning. Bayesian inference on
Gaussian processes has proven to be a viable approach for studying recurrent
and deep networks in the limit of infinite layer width, $n\to\infty$. Here we
present a unified and systematic derivation of the mean-field theory for both
architectures that starts from first principles by employing established
methods from statistical physics of disordered systems. The theory elucidates
that while the mean-field equations are different with regard to their temporal
structure, they yet yield identical Gaussian kernels when readouts are taken at
a single time point or layer, respectively. Bayesian inference applied to
classification then predicts identical performance and capabilities for the two
architectures. Numerically, we find that convergence towards the mean-field
theory is typically slower for recurrent networks than for deep networks and
the convergence speed depends non-trivially on the parameters of the weight
prior as well as the depth or number of time steps, respectively. Our method
exposes that Gaussian processes are but the lowest order of a systematic
expansion in $1/n$. The formalism thus paves the way to investigate the
fundamental differences between recurrent and deep architectures at finite
widths $n$.
- Abstract(参考訳): 異なるネットワークアーキテクチャの能力と限界を理解することは、機械学習にとって基本的な重要性である。
ガウス過程のベイズ推論は、無限層幅の極限である$n\to\infty$ で再帰的および深層ネットワークを研究するための有効なアプローチであることが証明されている。
本稿では,無秩序系の統計物理学の確立した手法を用いて,第一原理から始まり,両アーキテクチャの平均場理論を統一的かつ体系的に導出する。
この理論は、平均場方程式は時間的構造に関して異なるが、読み出しが1つの点または層で取られるとき、それぞれ同じガウス核を生成すると結論付ける。
分類に適用されたベイズ推定は、2つのアーキテクチャの同一の性能と能力を予測する。
数値的には、平均場理論への収束は、ディープネットワークよりも再帰的なネットワークでは遅く、収束速度は、それぞれ、前の重みのパラメータや、深さや時間ステップの数に依存する。
提案手法はガウス過程が1/n$の体系的展開の最小順序であることを示す。
したがって形式主義は、有限幅のリカレントアーキテクチャとディープアーキテクチャの基本的な違いを探究する方法である。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Reframing Neural Networks: Deep Structure in Overcomplete
Representations [41.84502123663809]
本稿では,構造化過剰フレームを用いた表現学習のための統一フレームワークであるdeep frame approximationを提案する。
表現一意性と安定性に関連付けられたデータ非依存的なコヒーレンス尺度であるdeep frame potentialとの構造的差異を定量化する。
この超完全表現の確立された理論への接続は、原理化されたディープネットワークアーキテクチャ設計の新たな方向性を示唆している。
論文 参考訳(メタデータ) (2021-03-10T01:15:14Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。