Fugu-MT 論文翻訳(概要): On the Initialisation of Wide Low-Rank Feedforward Neural Networks

論文の概要: On the Initialisation of Wide Low-Rank Feedforward Neural Networks

arxiv url: http://arxiv.org/abs/2301.13710v1
Date: Tue, 31 Jan 2023 15:40:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-01 16:00:59.983763
Title: On the Initialisation of Wide Low-Rank Feedforward Neural Networks
Title（参考訳）: 広い低ランクフィードフォワードニューラルネットワークの初期化について
Authors: Thiziri Nait Saada, Jared Tanner
Abstract要約: 最適な重みとバイアス分散の式は、フルランク設定からローランク設定に拡張される。インプット・アウトプット・ヤコビアン(英語版)のばらつきである第二次原理効果(英語版)が導出され、ランクと幅比が減少するにつれて増加することが示される。
参考スコア（独自算出の注目度）: 3.8073142980733
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The edge-of-chaos dynamics of wide randomly initialized low-rank feedforward networks are analyzed. Formulae for the optimal weight and bias variances are extended from the full-rank to low-rank setting and are shown to follow from multiplicative scaling. The principle second order effect, the variance of the input-output Jacobian, is derived and shown to increase as the rank to width ratio decreases. These results inform practitioners how to randomly initialize feedforward networks with a reduced number of learnable parameters while in the same ambient dimension, allowing reductions in the computational cost and memory constraints of the associated network.
Abstract（参考訳）: ランダム初期化低ランクフィードフォワードネットワークのエッジ・オブ・カオスダイナミクスを解析した。最適重みとバイアス分散の公式は、フルランク設定からローランク設定に拡張され、乗法スケーリングから従うことが示される。入力出力ヤコビアンの分散である原理2次効果が導出され、ランクと幅比が減少するにつれて増加することが示される。これらの結果から,学習可能なパラメータの数を減らしたフィードフォワードネットワークを,同じ環境次元でランダムに初期化する方法が示され,ネットワークの計算コストとメモリ制約の低減が可能となった。

関連論文リスト

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression [4.297070083645049]
我々は、完全連結ネットワークの被覆数に対して、(乗法定数まで)下限と上限を密に展開する。境界の厳密さにより、疎度、量子化、有界対非有界重み、およびネットワーク出力トランケーションの影響の根本的な理解が展開できる。
論文参考訳（メタデータ） (2024-10-08T21:23:14Z)
Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文参考訳（メタデータ） (2024-06-06T23:19:57Z)
Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文参考訳（メタデータ） (2023-10-11T18:00:02Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
Rethinking Skip Connection with Layer Normalization in Transformers and ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文参考訳（メタデータ） (2021-05-15T11:44:49Z)
On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。正方形損失はその最適値に指数関数的に収束することを示す。我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文参考訳（メタデータ） (2021-05-13T15:13:51Z)
Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文参考訳（メタデータ） (2020-08-07T02:55:28Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文参考訳（メタデータ） (2020-01-28T18:25:15Z)
Mixed-Precision Quantized Neural Network with Progressively Decreasing Bitwidth For Image Classification and Object Detection [21.48875255723581]
ビット幅が徐々に増大する混合精度量子化ニューラルネットワークを提案し,精度と圧縮のトレードオフを改善する。典型的なネットワークアーキテクチャとベンチマークデータセットの実験は、提案手法がより良い結果または同等の結果が得られることを示した。
論文参考訳（メタデータ） (2019-12-29T14:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。