論文の概要: Fixed Points of Deep Neural Networks: Emergence, Stability, and Applications
- arxiv url: http://arxiv.org/abs/2501.04182v1
- Date: Tue, 07 Jan 2025 23:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:25.140376
- Title: Fixed Points of Deep Neural Networks: Emergence, Stability, and Applications
- Title(参考訳): ディープニューラルネットワークの固定点:創発性、安定性、応用
- Authors: L. Berlyand, V. Slavin,
- Abstract要約: 我々はディープニューラルネットワーク(DNN)の固定点群の形成と安定性について述べる。
本稿では、教師付き、半教師付き、教師なし学習におけるそのようなネットワークの応用例を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present numerical and analytical results on the formation and stability of a family of fixed points of deep neural networks (DNNs). Such fixed points appear in a class of DNNs when dimensions of input and output vectors are the same. We demonstrate examples of applications of such networks in supervised, semi-supervised and unsupervised learning such as encoding/decoding of images, restoration of damaged images among others. We present several numerical and analytical results. First, we show that for untrained DNN's with weights and biases initialized by normally distributed random variables the only one fixed point exists. This result holds for DNN with any depth (number of layers) $L$, any layer width $N$, and sigmoid-type activation functions. Second, it has been shown that for a DNN whose parameters (weights and biases) are initialized by ``light-tailed'' distribution of weights (e.g. normal distribution), after training the distribution of these parameters become ``heavy-tailed''. This motivates our study of DNNs with ``heavy-tailed'' initialization. For such DNNs we show numerically %existence and stability that training leads to emergence of $Q(N,L)$ fixed points, where $Q(N,L)$ is a positive integer which depends on the number of layers $L$ and layer width $N$. We further observe numerically that for fixed $N = N_0$ the function $Q(N_0, L)$ is non-monotone, that is it initially grows as $L$ increases and then decreases to 1. This non-monotone behavior of $Q(N_0, L)$ is also obtained by analytical derivation of equation for Empirical Spectral Distribution (ESD) of input-output Jacobian followed by numerical solution of this equation.
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)の固定点群の形成と安定性に関する数値的および解析的な結果を示す。
このような固定点は、入力ベクトルと出力ベクトルの次元が同じであるとき、DNNのクラスに現れる。
本稿では、画像の符号化・復号化、損傷した画像の復元など、教師付き・半教師付き・教師なし学習におけるそのようなネットワークの適用例を示す。
我々はいくつかの数値的および解析的な結果を示す。
まず、正規分布変数によって初期化される重みとバイアスを持つ訓練されていないDNNの場合、固定点が1つだけ存在することを示す。
この結果は、深さ(層数)$L$、任意の層幅$N$、シグモイド型アクティベーション関数を持つDNNに対して成り立つ。
第二に、パラメータ(重みと偏り)が'light-tailed'の重みの分布(例えば正規分布)によって初期化されるDNNでは、これらのパラメータの分布が'heavy-tailed'となることが示されている。
このことは、DNN を `heavy-tailed' 初期化で研究する動機となっている。
そのようなDNNに対して、トレーニングが$Q(N,L)$固定点の出現につながるような数値的に%の存在と安定性を示し、ここでは$Q(N,L)$は、層数$L$と層幅$N$に依存する正の整数である。
さらに、固定された$N = N_0$ に対して、$Q(N_0, L)$ は非単調であること、つまり、最初は$L$ が増加して 1 に減少すると成長するということである。
このQ(N_0, L)$の非単調な振る舞いは、入力出力ジャコビアンの経験スペクトル分布(ESD)方程式の解析的導出と、この方程式の数値解によっても得られる。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Role of Locality and Weight Sharing in Image-Based Tasks: A Sample Complexity Separation between CNNs, LCNs, and FCNs [42.551773746803946]
視覚タスクは局所性と翻訳不変性の特性によって特徴づけられる。
これらのタスクにおける畳み込みニューラルネットワーク(CNN)の優れた性能は、そのアーキテクチャに埋め込まれた局所性や重み付けの帰納的バイアスに起因する。
CNNにおけるこれらのバイアスの統計的利点を、局所連結ニューラルネットワーク(LCN)と完全連結ニューラルネットワーク(FCN)で定量化しようとする試みは、以下のカテゴリに分類される。
論文 参考訳(メタデータ) (2024-03-23T03:57:28Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - Approximating smooth functions by deep neural networks with sigmoid
activation function [0.0]
我々は,シグモイド活性化機能を持つディープニューラルネットワーク(DNN)のパワーについて検討した。
固定深度と幅が$Md$で近似レートが$M-2p$であることを示す。
論文 参考訳(メタデータ) (2020-10-08T07:29:31Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。