論文の概要: Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group
- arxiv url: http://arxiv.org/abs/2012.04030v1
- Date: Mon, 7 Dec 2020 20:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:53:40.175036
- Title: Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group
- Title(参考訳): ディープリニアニューラルネットワークの統計力学:バック伝播再正規化群
- Authors: Qianyi Li, Haim Sompolinsky
- Abstract要約: 個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep learning in many real-world tasks has triggered an effort
to theoretically understand the power and limitations of deep learning in
training and generalization of complex tasks, so far with limited progress. In
this work, we study the statistical mechanics of learning in Deep Linear Neural
Networks (DLNNs) in which the input-output function of an individual unit is
linear. Despite the linearity of the units, learning in DLNNs is highly
nonlinear, hence studying its properties reveals some of the essential features
of nonlinear Deep Neural Networks (DNNs). We solve exactly the network
properties following supervised learning using an equilibrium Gibbs
distribution in the weight space. To do this, we introduce the Back-Propagating
Renormalization Group (BPRG) which allows for the incremental integration of
the network weights layer by layer from the network output layer and
progressing backward. This procedure allows us to evaluate important network
properties such as its generalization error, the role of network width and
depth, the impact of the size of the training set, and the effects of weight
regularization and learning stochasticity. Furthermore, by performing partial
integration of layers, BPRG allows us to compute the emergent properties of the
neural representations across the different hidden layers. We have proposed a
heuristic extension of the BPRG to nonlinear DNNs with rectified linear units
(ReLU). Surprisingly, our numerical simulations reveal that despite the
nonlinearity, the predictions of our theory are largely shared by ReLU networks
with modest depth, in a wide regime of parameters. Our work is the first exact
statistical mechanical study of learning in a family of Deep Neural Networks,
and the first development of the Renormalization Group approach to the weight
space of these systems.
- Abstract(参考訳): 多くの現実世界のタスクにおけるディープラーニングの成功は、トレーニングと複雑なタスクの一般化におけるディープラーニングの能力と限界を理論的に理解する試みのきっかけとなった。
本研究では,個々の単位の入力出力関数が線形である深層線形ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
ユニットの線形性にもかかわらず、DLNNでの学習は非常に非線形であるため、その特性の研究は非線形ディープニューラルネットワーク(DNN)の本質的な特徴を明らかにしている。
重み空間における平衡ギブス分布を用いて教師付き学習後のネットワーク特性を正確に解く。
これを実現するために,バックプロパゲーション再正規化グループ(bprg)を導入し,ネットワーク出力層からレイヤ単位のネットワーク重み付け層を段階的に統合し,後向きに進める。
本手法により、一般化誤差、ネットワーク幅と深さの役割、トレーニングセットのサイズの影響、および重み正規化と学習確率の影響などの重要なネットワーク特性を評価することができる。
さらに、BPRGは層の部分的な統合を行うことで、異なる隠された層にまたがる神経表現の創発的特性を計算することができる。
我々は,線形整列ユニット(ReLU)を持つ非線形DNNに対するBPRGのヒューリスティック拡張を提案した。
驚くべきことに、我々の数値シミュレーションは、非線形性にもかかわらず、我々の理論の予測は、かなり深いReLUネットワークによって、幅広いパラメータで共有されていることを示している。
我々の研究は、ディープニューラルネットワークの一群における学習の正確な統計力学的研究であり、これらのシステムの重み空間に対する再正規化グループアプローチの最初の開発である。
関連論文リスト
- Theoretical characterisation of the Gauss-Newton conditioning in Neural Networks [5.851101657703105]
ニューラルネットワークにおけるガウスニュートン行列(GN)の条件付けを理論的に特徴付けるための第一歩を踏み出す。
我々は、任意の深さと幅の深い線形ネットワークにおいて、GNの条件数に厳密な境界を確立する。
残りの接続や畳み込み層といったアーキテクチャコンポーネントに分析を拡張します。
論文 参考訳(メタデータ) (2024-11-04T14:56:48Z) - Low-Rank Learning by Design: the Role of Network Architecture and
Activation Linearity in Gradient Rank Collapse [14.817633094318253]
ディープニューラルネットワーク(DNN)におけるデータ効果勾配ランクのアーキテクチャ的選択と構造について検討する。
我々の理論的分析は、完全連結、再帰、畳み込みニューラルネットワークのトレーニングにこれらの境界を提供する。
また、理論的にも経験的にも、アクティベーション関数の線形性、ボトルネック層の導入、畳み込みストライド、シーケンストランケーションといった設計選択がこれらの境界にどのように影響するかを示す。
論文 参考訳(メタデータ) (2024-02-09T19:28:02Z) - Understanding Deep Neural Networks via Linear Separability of Hidden
Layers [68.23950220548417]
まず,ミンコフスキー差分に基づく線形分離性尺度(MD-LSMs)を提案し,2点集合の線形分離性度を評価する。
隠れ層出力の線形分離度とネットワークトレーニング性能との間には同期性があることを実証する。
論文 参考訳(メタデータ) (2023-07-26T05:29:29Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Characterizing Learning Dynamics of Deep Neural Networks via Complex
Networks [1.0869257688521987]
複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。
ノード/ニューロンとレイヤ、すなわちNodes StrengthとLayers Fluctuationのメトリクスを紹介します。
本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低次ネットワークを分離する。
論文 参考訳(メタデータ) (2021-10-06T10:03:32Z) - A Weight Initialization Based on the Linear Product Structure for Neural
Networks [0.0]
非線形的な観点からニューラルネットワークを研究し、ニューラルネットワークの線形積構造(LPS)に基づく新しいウェイト初期化戦略を提案する。
提案手法は, 数値代数学の理論を用いて, すべての局所最小値を求めることを保証することにより, 活性化関数の近似から導かれる。
論文 参考訳(メタデータ) (2021-09-01T00:18:59Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。