論文の概要: Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions
- arxiv url: http://arxiv.org/abs/2306.01513v1
- Date: Fri, 2 Jun 2023 13:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:03:37.036462
- Title: Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions
- Title(参考訳): トレーニングパフォーマンス指標としてのネットワークデジェネシー:有限および無限幅角予測の比較
- Authors: Cameron Jakub, Mihai Nica
- Abstract要約: ネットワークの深層化が進むにつれ、ネットワークは縮退しやすくなっている。
完全に接続されたReLUネットワークアーキテクチャのデジェネリシーのレベルを正確に予測できる単純なアルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks are powerful functions with widespread use, but the
theoretical behaviour of these functions is not fully understood. Creating deep
neural networks by stacking many layers has achieved exceptional performance in
many applications and contributed to the recent explosion of these methods.
Previous works have shown that depth can exponentially increase the
expressibility of the network. However, as networks get deeper and deeper, they
are more susceptible to becoming degenerate. We observe this degeneracy in the
sense that on initialization, inputs tend to become more and more correlated as
they travel through the layers of the network. If a network has too many
layers, it tends to approximate a (random) constant function, making it
effectively incapable of distinguishing between inputs. This seems to affect
the training of the network and cause it to perform poorly, as we empirically
investigate in this paper. We use a simple algorithm that can accurately
predict the level of degeneracy for any given fully connected ReLU network
architecture, and demonstrate how the predicted degeneracy relates to training
dynamics of the network. We also compare this prediction to predictions derived
using infinite width networks.
- Abstract(参考訳): ニューラルネットワークは広く利用されている強力な関数であるが、これらの関数の理論的挙動は十分に理解されていない。
多くのレイヤを積み重ねることでディープニューラルネットワークを作成することは、多くのアプリケーションで例外的なパフォーマンスを達成し、これらのメソッドの最近の爆発に寄与した。
前回の研究では、深さがネットワークの表現可能性を指数関数的に増加させることが示されている。
しかし、ネットワークの深層化が進むにつれ、ネットワークは縮退する傾向にある。
我々は、初期化において、入力がネットワークの層を通過するにつれてより相関する傾向にあるという意味で、この縮退を観察する。
ネットワークに層が多すぎる場合、(ランダムな)定数関数を近似する傾向があり、入力を区別することができない。
本論文では,ネットワークのトレーニングに影響を及ぼし,パフォーマンスに悪影響を及ぼすと考えられる。
完全接続されたReLUネットワークアーキテクチャのデジェネリシーレベルを正確に予測できる単純なアルゴリズムを用いて、予測されたデジェネリシーがネットワークのトレーニング力学とどのように関係しているかを実証する。
また、この予測を無限幅ネットワークを用いた予測と比較する。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization [5.678271181959529]
層数の関数としてReLUニューラルネットワークへの2つの入力間の角度の進化について検討する。
モンテカルロ実験を用いて理論的結果を検証し, 有限ネットワークの挙動を正確に近似することを示した。
また,深度縮退現象が実際のネットワークのトレーニングに悪影響を及ぼすかを実証的に検討した。
論文 参考訳(メタデータ) (2023-02-20T01:30:27Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Predify: Augmenting deep neural networks with brain-inspired predictive
coding dynamics [0.5284812806199193]
我々は神経科学の一般的な枠組みからインスピレーションを得た:「予測コーディング」
本稿では、この戦略をVGG16とEfficientNetB0という2つの人気ネットワークに実装することで、様々な汚職に対する堅牢性を向上させることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:48:13Z) - The Connection Between Approximation, Depth Separation and Learnability
in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。
対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文 参考訳(メタデータ) (2021-01-31T11:32:30Z) - Prior knowledge distillation based on financial time series [0.8756822885568589]
我々は,ニューラルネットワークを用いて指標を表現し,より小さなネットワークを特徴層として構築した大規模ネットワークを訓練することを提案する。
数値実験により,本アルゴリズムは実際の財務データセットの従来の手法よりも高速かつ高精度であることが判明した。
論文 参考訳(メタデータ) (2020-06-16T15:26:06Z) - Why should we add early exits to neural networks? [16.793040797308105]
ディープニューラルネットワークは一般的に、完全なスタックを実行した後にのみ予測が得られる、微分可能なレイヤのスタックとして設計されている。
いくつかのコントリビューションでは、ネットワークに早期出口を付与し、スタックの中間点での予測を得る手法が提案されている。
これらのマルチアウトプットネットワークには、(i)推論時間の大幅な削減、(ii)勾配の過度な適合と消滅傾向の低減、(iii)多層プラットフォームに分散する能力など、多くの利点がある。
論文 参考訳(メタデータ) (2020-04-27T13:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。