論文の概要: Fixed Points of Deep Neural Networks: Emergence, Stability, and Applications
- arxiv url: http://arxiv.org/abs/2501.04182v1
- Date: Tue, 07 Jan 2025 23:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.518161
- Title: Fixed Points of Deep Neural Networks: Emergence, Stability, and Applications
- Title(参考訳): ディープニューラルネットワークの固定点:創発性、安定性、応用
- Authors: L. Berlyand, V. Slavin,
- Abstract要約: 我々はディープニューラルネットワーク(DNN)の固定点群の形成と安定性について述べる。
本稿では、教師付き、半教師付き、教師なし学習におけるそのようなネットワークの応用例を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present numerical and analytical results on the formation and stability of a family of fixed points of deep neural networks (DNNs). Such fixed points appear in a class of DNNs when dimensions of input and output vectors are the same. We demonstrate examples of applications of such networks in supervised, semi-supervised and unsupervised learning such as encoding/decoding of images, restoration of damaged images among others. We present several numerical and analytical results. First, we show that for untrained DNN's with weights and biases initialized by normally distributed random variables the only one fixed point exists. This result holds for DNN with any depth (number of layers) $L$, any layer width $N$, and sigmoid-type activation functions. Second, it has been shown that for a DNN whose parameters (weights and biases) are initialized by ``light-tailed'' distribution of weights (e.g. normal distribution), after training the distribution of these parameters become ``heavy-tailed''. This motivates our study of DNNs with ``heavy-tailed'' initialization. For such DNNs we show numerically %existence and stability that training leads to emergence of $Q(N,L)$ fixed points, where $Q(N,L)$ is a positive integer which depends on the number of layers $L$ and layer width $N$. We further observe numerically that for fixed $N = N_0$ the function $Q(N_0, L)$ is non-monotone, that is it initially grows as $L$ increases and then decreases to 1. This non-monotone behavior of $Q(N_0, L)$ is also obtained by analytical derivation of equation for Empirical Spectral Distribution (ESD) of input-output Jacobian followed by numerical solution of this equation.
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)の固定点群の形成と安定性に関する数値的および解析的な結果を示す。
このような固定点は、入力ベクトルと出力ベクトルの次元が同じであるとき、DNNのクラスに現れる。
本稿では、画像の符号化・復号化、損傷した画像の復元など、教師付き・半教師付き・教師なし学習におけるそのようなネットワークの適用例を示す。
我々はいくつかの数値的および解析的な結果を示す。
まず、正規分布変数によって初期化される重みとバイアスを持つ訓練されていないDNNの場合、固定点が1つだけ存在することを示す。
この結果は、深さ(層数)$L$、任意の層幅$N$、シグモイド型アクティベーション関数を持つDNNに対して成り立つ。
第二に、パラメータ(重みと偏り)が'light-tailed'の重みの分布(例えば正規分布)によって初期化されるDNNでは、これらのパラメータの分布が'heavy-tailed'となることが示されている。
このことは、DNN を `heavy-tailed' 初期化で研究する動機となっている。
そのようなDNNに対して、トレーニングが$Q(N,L)$固定点の出現につながるような数値的に%の存在と安定性を示し、ここでは$Q(N,L)$は、層数$L$と層幅$N$に依存する正の整数である。
さらに、固定された$N = N_0$ に対して、$Q(N_0, L)$ は非単調であること、つまり、最初は$L$ が増加して 1 に減少すると成長するということである。
このQ(N_0, L)$の非単調な振る舞いは、入力出力ジャコビアンの経験スペクトル分布(ESD)方程式の解析的導出と、この方程式の数値解によっても得られる。
関連論文リスト
- Statistical Properties of Deep Neural Networks with Dependent Data [0.0]
本稿では, ディープニューラルネットワーク (DNN) 推定器の統計特性について, 従属データに基づく検討を行った。
このフレームワークは、他のDNNアーキテクチャや時系列アプリケーションの研究の可能性も提供する。
論文 参考訳(メタデータ) (2024-10-14T21:46:57Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Role of Locality and Weight Sharing in Image-Based Tasks: A Sample Complexity Separation between CNNs, LCNs, and FCNs [42.551773746803946]
視覚タスクは局所性と翻訳不変性の特性によって特徴づけられる。
これらのタスクにおける畳み込みニューラルネットワーク(CNN)の優れた性能は、そのアーキテクチャに埋め込まれた局所性や重み付けの帰納的バイアスに起因する。
CNNにおけるこれらのバイアスの統計的利点を、局所連結ニューラルネットワーク(LCN)と完全連結ニューラルネットワーク(FCN)で定量化しようとする試みは、以下のカテゴリに分類される。
論文 参考訳(メタデータ) (2024-03-23T03:57:28Z) - Sparsifying Bayesian neural networks with latent binary variables and
normalizing flows [10.865434331546126]
潜伏二元系ベイズニューラルネットワーク(LBBNN)の2つの拡張について検討する。
まず、隠れたユニットを直接サンプリングするためにLRT(Local Reparametrization trick)を用いることで、より計算効率の良いアルゴリズムが得られる。
さらに, LBBNNパラメータの変動後分布の正規化フローを用いて, 平均体ガウス分布よりも柔軟な変動後分布を学習する。
論文 参考訳(メタデータ) (2023-05-05T09:40:28Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Graph Neural Networks are Inherently Good Generalizers: Insights by
Bridging GNNs and MLPs [71.93227401463199]
本稿では、P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより、GNNの性能向上を本質的な能力に向ける。
PMLPは、トレーニングにおいてはるかに効率的でありながら、GNNと同等(あるいはそれ以上)に動作することを観察する。
論文 参考訳(メタデータ) (2022-12-18T08:17:32Z) - A Tale of Two Cities: Data and Configuration Variances in Robust Deep
Learning [27.498927971861068]
ディープニューラルネットワーク(DNN)は、画像認識、サプライチェーン、診断、自律運転など、多くの産業で広く利用されている。
これまでの研究では、入力データと外部環境が常に変化しているため、DNNモデルの高精度さは、高いロバスト性を示すものではなかった。
論文 参考訳(メタデータ) (2022-11-18T03:32:53Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Generalizing Graph Neural Networks on Out-Of-Distribution Graphs [51.33152272781324]
トレーニンググラフとテストグラフの分散シフトを考慮せずにグラフニューラルネットワーク(GNN)を提案する。
このような環境では、GNNは、たとえ素早い相関であるとしても、予測のためのトレーニングセットに存在する微妙な統計的相関を利用する傾向がある。
本稿では,スプリアス相関の影響を排除するため,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:57:18Z) - Training Stable Graph Neural Networks Through Constrained Learning [116.03137405192356]
グラフニューラルネットワーク(GNN)は、ネットワークデータから機能を学ぶためにグラフ畳み込みに依存する。
GNNは、グラフフィルタから受け継いだ特性である、基礎となるグラフの様々な種類の摂動に対して安定である。
本稿では,GNNの安定条件に制約を課すことにより,新たな制約付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-07T15:54:42Z) - Disentangling deep neural networks with rectified linear units using
duality [4.683806391173103]
線形整流ユニット(ReLU)を用いたディープニューラルネットワーク(DNN)の解釈可能な新しい実装を提案する。
我々は、大域プールとスキップ接続との畳み込みが、それぞれ回転不変性とアンサンブル構造をニューラルパスカーネル(NPK)にもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-06T16:51:59Z) - Generalizing Neural Networks by Reflecting Deviating Data in Production [15.498447555957773]
本稿では,DNNに対する予期せぬ実行時入力によるDNNの誤予測を緩和する実行時アプローチを提案する。
我々は,シームズネットワークが学習した距離測定値に基づく分布解析器を用いて,意味的に保存されていない入力を識別する。
我々のアプローチは、これらの予期せぬ入力を、類似のセマンティクスを持つと認識されるトレーニングセットから入力に変換する。
論文 参考訳(メタデータ) (2021-10-06T13:05:45Z) - Shift-Robust GNNs: Overcoming the Limitations of Localized Graph
Training data [52.771780951404565]
Shift-Robust GNN (SR-GNN) は、バイアス付きトレーニングデータとグラフの真の推論分布の分布差を考慮に入れた設計である。
SR-GNNが他のGNNベースラインを精度良く上回り、バイアス付きトレーニングデータから生じる負の効果の少なくとも40%を排除していることを示す。
論文 参考訳(メタデータ) (2021-08-02T18:00:38Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - PDO-e$\ ext{S}^\ ext{2}$CNNs: Partial Differential Operator Based
Equivariant Spherical CNNs [77.53203546732664]
我々は偏微分演算子を用いて球等価CNN, PDO-e$textStext2$CNNを設計する。
実験では、pdo-e$textstext2$cnnsはパラメータ効率が高く、いくつかのタスクで他の球面cnnを大きく上回る。
論文 参考訳(メタデータ) (2021-04-08T07:54:50Z) - Approximating smooth functions by deep neural networks with sigmoid
activation function [0.0]
我々は,シグモイド活性化機能を持つディープニューラルネットワーク(DNN)のパワーについて検討した。
固定深度と幅が$Md$で近似レートが$M-2p$であることを示す。
論文 参考訳(メタデータ) (2020-10-08T07:29:31Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。