論文の概要: Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected
ReLU Networks on Initialization
- arxiv url: http://arxiv.org/abs/2302.09712v2
- Date: Fri, 26 May 2023 18:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 01:26:50.163713
- Title: Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected
ReLU Networks on Initialization
- Title(参考訳): ニューラルネットワークの深さ縮退:初期化における完全連結reluネットワークの消失角
- Authors: Cameron Jakub and Mihai Nica
- Abstract要約: ディープ・ニューラル・ネットワークはまだ理論的には解明されていません
本稿では,層数の関数としてのReLUニューラルネットワークに対する2つの入力間の角度の進化について検討する。
モンテカルロ実験を用いて理論的結果を検証し, 有限ネットワークの挙動を正確に近似することを示した。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable performance on a variety of tasks, many properties of deep
neural networks are not yet theoretically understood. One such mystery is the
depth degeneracy phenomenon: the deeper you make your network, the closer your
network is to a constant function on initialization. In this paper, we examine
the evolution of the angle between two inputs to a ReLU neural network as a
function of the number of layers. By using combinatorial expansions, we find
precise formulas for how fast this angle goes to zero as depth increases. These
formulas capture microscopic fluctuations that are not visible in the popular
framework of infinite width limits, and leads to qualitatively different
predictions. We validate our theoretical results with Monte Carlo experiments
and show that our results accurately approximate finite network behaviour. The
formulas are given in terms of the mixed moments of correlated Gaussians passed
through the ReLU function. We also find a surprising combinatorial connection
between these mixed moments and the Bessel numbers that allows us to explicitly
evaluate these moments.
- Abstract(参考訳): 様々なタスクにおける顕著な性能にもかかわらず、ディープニューラルネットワークの多くの特性はまだ理論的に理解されていない。
ネットワークが深ければ深いほど、ネットワークは初期化時に一定の機能に近づきます。
本稿では,層数の関数としてのReLUニューラルネットワークに対する2つの入力間の角度の進化について検討する。
組合せ展開を用いることで、深さが増加するにつれてこの角度がゼロになる速度の正確な公式が見つかる。
これらの公式は無限幅制限の一般的な枠組みでは見えない微視的なゆらぎを捉え、質的に異なる予測をもたらす。
その結果をモンテカルロ実験で検証し,有限ネットワークの挙動を精度良く近似することを示した。
公式は、ReLU関数を通過した相関ガウスの混合モーメントの観点から与えられる。
また、これらの混合モーメントとベッセル数の間に驚くべき組合せ関係があり、これらのモーメントを明示的に評価することができる。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Generative Kaleidoscopic Networks [2.321684718906739]
我々は、このニューラルネットワークの特性を利用して、ジェネレーティブ・カレイドスコープと呼ばれるデータセット・カレイドスコープを設計する。
我々は、CNN、Transformers、U-Netsといった他のディープラーニングアーキテクチャに対して、この現象を様々な程度に観測した。
論文 参考訳(メタデータ) (2024-02-19T02:48:40Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions [3.04585143845864]
ネットワークの深層化が進むにつれ、ネットワークは縮退しやすくなっている。
完全に接続されたReLUネットワークアーキテクチャのデジェネリシーのレベルを正確に予測できる単純なアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-06-02T13:02:52Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Convergence of Deep Convolutional Neural Networks [2.5991265608180396]
ネットワークの深さが無限大になる傾向にあるディープニューラルネットワークの収束は、ディープラーニングの数学的基礎を構築するのに不可欠である。
まず,幅を拡大した一般ReLUネットワークの収束について検討し,得られた結果を深部畳み込みニューラルネットワークに適用する。
論文 参考訳(メタデータ) (2021-09-28T07:48:17Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。