論文の概要: On the Initialisation of Wide Low-Rank Feedforward Neural Networks
- arxiv url: http://arxiv.org/abs/2301.13710v1
- Date: Tue, 31 Jan 2023 15:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:00:59.983763
- Title: On the Initialisation of Wide Low-Rank Feedforward Neural Networks
- Title(参考訳): 広い低ランクフィードフォワードニューラルネットワークの初期化について
- Authors: Thiziri Nait Saada, Jared Tanner
- Abstract要約: 最適な重みとバイアス分散の式は、フルランク設定からローランク設定に拡張される。
インプット・アウトプット・ヤコビアン(英語版)のばらつきである第二次原理効果(英語版)が導出され、ランクと幅比が減少するにつれて増加することが示される。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The edge-of-chaos dynamics of wide randomly initialized low-rank feedforward
networks are analyzed. Formulae for the optimal weight and bias variances are
extended from the full-rank to low-rank setting and are shown to follow from
multiplicative scaling. The principle second order effect, the variance of the
input-output Jacobian, is derived and shown to increase as the rank to width
ratio decreases. These results inform practitioners how to randomly initialize
feedforward networks with a reduced number of learnable parameters while in the
same ambient dimension, allowing reductions in the computational cost and
memory constraints of the associated network.
- Abstract(参考訳): ランダム初期化低ランクフィードフォワードネットワークのエッジ・オブ・カオスダイナミクスを解析した。
最適重みとバイアス分散の公式は、フルランク設定からローランク設定に拡張され、乗法スケーリングから従うことが示される。
入力出力ヤコビアンの分散である原理2次効果が導出され、ランクと幅比が減少するにつれて増加することが示される。
これらの結果から,学習可能なパラメータの数を減らしたフィードフォワードネットワークを,同じ環境次元でランダムに初期化する方法が示され,ネットワークの計算コストとメモリ制約の低減が可能となった。
関連論文リスト
- Compelling ReLU Network Initialization and Training to Leverage
Exponential Scaling with Depth [1.9336815376402718]
ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。
このようなネットワークに対して、入力領域上で表現される異なる線形領域の数は、指数関数的に深さでスケールする可能性がある。
単純な関数を近似するためには、過度に大きなモデルを使う必要がある。
論文 参考訳(メタデータ) (2023-11-29T19:09:48Z) - Optimization dependent generalization bound for ReLU networks based on
sensitivity in the tangent bundle [0.0]
本稿では,フィードフォワードReLUネットワークの一般化誤差に基づいたPAC型を提案する。
得られた境界はネットワークの深さに明示的に依存しない。
論文 参考訳(メタデータ) (2023-10-26T13:14:13Z) - Feature Learning and Generalization in Deep Networks with Orthogonal
Weights [2.0180882714261568]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さと線形に成長するゆらぎを示しており、深さに匹敵する幅のネットワークのトレーニングを損なう可能性がある。
行列のアンサンブルから得られるタンの活性化と重みを持つ長方形のネットワークは、深さによらず、逆幅の先頭の順に、対応する事前活性化変動を持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z) - Mixed-Precision Quantized Neural Network with Progressively Decreasing
Bitwidth For Image Classification and Object Detection [21.48875255723581]
ビット幅が徐々に増大する混合精度量子化ニューラルネットワークを提案し,精度と圧縮のトレードオフを改善する。
典型的なネットワークアーキテクチャとベンチマークデータセットの実験は、提案手法がより良い結果または同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2019-12-29T14:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。