論文の概要: Gradient-trained Weights in Wide Neural Networks Align Layerwise to
Error-scaled Input Correlations
- arxiv url: http://arxiv.org/abs/2106.08453v1
- Date: Tue, 15 Jun 2021 21:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:39:18.376930
- Title: Gradient-trained Weights in Wide Neural Networks Align Layerwise to
Error-scaled Input Correlations
- Title(参考訳): 広層ニューラルネットワークにおける勾配学習重み付けと誤差スケール入力相関
- Authors: Akhilan Boopathy, Ila Fiete
- Abstract要約: 我々は、勾配降下によって訓練された非線形活性化を伴う無限幅ニューラルネットワークの層方向の重みダイナミクスを導出する。
我々は、バックプロパゲーションと同じアライメントを理論的に達成するバックプロパゲーションフリー学習ルール、Align-zeroとAlign-adaを定式化した。
- 参考スコア(独自算出の注目度): 11.176824373696324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have examined how deep neural networks, which can solve a
variety of difficult problems, incorporate the statistics of training data to
achieve their success. However, existing results have been established only in
limited settings. In this work, we derive the layerwise weight dynamics of
infinite-width neural networks with nonlinear activations trained by gradient
descent. We show theoretically that weight updates are aligned with input
correlations from intermediate layers weighted by error, and demonstrate
empirically that the result also holds in finite-width wide networks. The
alignment result allows us to formulate backpropagation-free learning rules,
named Align-zero and Align-ada, that theoretically achieve the same alignment
as backpropagation. Finally, we test these learning rules on benchmark problems
in feedforward and recurrent neural networks and demonstrate, in wide networks,
comparable performance to backpropagation.
- Abstract(参考訳): 近年の研究では、さまざまな困難を解決できるディープニューラルネットワークが、トレーニングデータの統計を取り入れて、その成功を達成している。
しかし、既存の結果は限られた設定でのみ確立されている。
本研究では,勾配降下によって学習された非線形アクティベーションを持つ無限幅ニューラルネットワークの層間重み付けダイナミクスを導出する。
重み更新は, 誤差によって重み付けられた中間層からの入力相関に一致し, 有限幅幅の広帯域ネットワークでも有効であることを示す。
このアライメントの結果、理論上はバックプロパゲーションと同じアライメントを達成するバックプロパゲーションフリー学習ルールを定式化できる。
最後に、これらの学習ルールをfeedforwardおよびrecurrentニューラルネットワークのベンチマーク問題でテストし、幅広いネットワークにおいて、バックプロパゲーションに匹敵するパフォーマンスを示す。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Adversarial Reprogramming Revisited [0.15229257192293197]
敵対的再プログラミングは、異なるタスクを実行するためにニューラルネットワークを再利用しようとする。
ランダムな重みを持つ2層ReLUニューラルネットワークは、任意に高い精度を達成するために逆向きにプログラムできることを示す。
論文 参考訳(メタデータ) (2022-06-07T17:37:22Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Fast Adaptation with Linearized Neural Networks [35.43406281230279]
ニューラルネットワークの線形化の帰納的バイアスについて検討し,全ネットワーク関数の驚くほどよい要約であることを示した。
この発見に触発されて,これらの帰納的バイアスをネットワークのヤコビアンから設計されたカーネルを通してガウス過程に埋め込む手法を提案する。
この設定では、領域適応は不確実性推定を伴う解釈可能な後方推論の形式を取る。
論文 参考訳(メタデータ) (2021-03-02T03:23:03Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。