論文の概要: Globally Gated Deep Linear Networks
- arxiv url: http://arxiv.org/abs/2210.17449v1
- Date: Mon, 31 Oct 2022 16:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:39:22.624730
- Title: Globally Gated Deep Linear Networks
- Title(参考訳): グローバルゲート型ディープリニアネットワーク
- Authors: Qianyi Li, Haim Sompolinsky
- Abstract要約: 我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently proposed Gated Linear Networks present a tractable nonlinear network
architecture, and exhibit interesting capabilities such as learning with local
error signals and reduced forgetting in sequential learning. In this work, we
introduce a novel gating architecture, named Globally Gated Deep Linear
Networks (GGDLNs) where gating units are shared among all processing units in
each layer, thereby decoupling the architectures of the nonlinear but unlearned
gatings and the learned linear processing motifs. We derive exact equations for
the generalization properties in these networks in the finite-width
thermodynamic limit, defined by $P,N\rightarrow\infty, P/N\sim O(1)$, where P
and N are the training sample size and the network width respectively. We find
that the statistics of the network predictor can be expressed in terms of
kernels that undergo shape renormalization through a data-dependent matrix
compared to the GP kernels. Our theory accurately captures the behavior of
finite width GGDLNs trained with gradient descent dynamics. We show that kernel
shape renormalization gives rise to rich generalization properties w.r.t.
network width, depth and L2 regularization amplitude. Interestingly, networks
with sufficient gating units behave similarly to standard ReLU networks.
Although gatings in the model do not participate in supervised learning, we
show the utility of unsupervised learning of the gating parameters.
Additionally, our theory allows the evaluation of the network's ability for
learning multiple tasks by incorporating task-relevant information into the
gating units. In summary, our work is the first exact theoretical solution of
learning in a family of nonlinear networks with finite width. The rich and
diverse behavior of the GGDLNs suggests that they are helpful analytically
tractable models of learning single and multiple tasks, in finite-width
nonlinear deep networks.
- Abstract(参考訳): 近年提案されたゲート型線形ネットワークは、扱いやすい非線形ネットワークアーキテクチャを示し、局所的エラー信号を用いた学習や逐次学習における忘れることの軽減といった興味深い能力を示す。
本研究では,GGDLN(Globally Gated Deep Linear Networks)と呼ばれる新しいゲーティングアーキテクチャを導入し,各レイヤ内のすべての処理ユニット間でゲーティングユニットを共有することにより,非線形だが学習されていないゲーティングのアーキテクチャと学習された線形処理モチーフを分離する。
p,n\rightarrow\infty,p/n\sim o(1)$ で定義される有限幅熱力学的極限におけるこれらのネットワークの一般化特性の厳密な方程式を導出する。
ネットワーク予測器の統計は,GPカーネルと比較して,データ依存行列による形状再正規化を行うカーネルで表現できることがわかった。
本理論は勾配降下ダイナミクスで学習した有限幅ggdlnの挙動を正確に捉える。
カーネル形状の正規化は、ネットワーク幅、深さ、L2正規化振幅のリッチな一般化特性をもたらすことを示す。
興味深いことに、十分なゲーティングユニットを持つネットワークは、標準のReLUネットワークと同様に振る舞う。
モデルにおけるゲーティングは教師付き学習には関与しないが,ゲーティングパラメータの教師なし学習の有用性を示す。
さらに,本理論は,タスク関連情報をゲーティングユニットに組み込むことで,複数のタスクを学習するネットワーク能力の評価を可能にする。
まとめると、我々の研究は有限幅の非線形ネットワーク群における学習の最初の正確な理論解である。
GGDLNのリッチで多様な振る舞いは、有限幅非線形ディープネットワークにおいて、単一のタスクと複数のタスクを学習する分析的に抽出可能なモデルであることを示している。
関連論文リスト
- Local Kernel Renormalization as a mechanism for feature learning in
overparametrized Convolutional Neural Networks [0.0]
実験的な証拠は、無限幅限界における完全連結ニューラルネットワークが最終的に有限幅限界よりも優れていることを示している。
畳み込み層を持つ最先端アーキテクチャは、有限幅構造において最適な性能を達成する。
有限幅FCネットワークの一般化性能は,ガウス事前選択に適した無限幅ネットワークで得られることを示す。
論文 参考訳(メタデータ) (2023-07-21T17:22:04Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - The Implicit Bias of Gradient Descent on Generalized Gated Linear
Networks [3.3946853660795893]
数学的に抽出可能な深部非線形ニューラルネットワーク(GLN)の無限時間学習限界を導出する。
アーキテクチャ上の制約と勾配勾配のバイアスがパフォーマンスにどのように影響するかを示す。
帰納的バイアスを明確にすることで、我々のフレームワークはより効率的で生物学的に妥当で堅牢な学習アルゴリズムの開発を知らせる。
論文 参考訳(メタデータ) (2022-02-05T22:37:39Z) - Deep Networks Provably Classify Data on Curves [12.309532551321334]
本研究では, 完全連結ニューラルネットワークを用いて, 単位球上の2つの不連続な滑らかな曲線から引き出されたデータを分類するモデル問題について検討する。
i) ネットワーク深度が問題の難易度と (ii) ネットワーク幅と標本数に固有の性質に比例すると, ランダムな勾配降下は2つの曲線上のすべての点を高い確率で正しく分類する。
論文 参考訳(メタデータ) (2021-07-29T20:40:04Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。