論文の概要: Random orthogonal additive filters: a solution to the
vanishing/exploding gradient of deep neural networks
- arxiv url: http://arxiv.org/abs/2210.01245v1
- Date: Mon, 3 Oct 2022 21:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:07:48.754497
- Title: Random orthogonal additive filters: a solution to the
vanishing/exploding gradient of deep neural networks
- Title(参考訳): ランダム直交加法フィルタ:ディープニューラルネットワークの消失/爆発勾配に対する解法
- Authors: Andrea Ceni
- Abstract要約: ニューラルネットワークの新しいアーキテクチャは、消滅/爆発(V/E)勾配問題を数学的に防止するために提案される。
驚くべきことに、単一の層バニラRNNを超高速で収束させながら、アートパフォーマンスの状態に到達するように拡張することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the recognition in the early nineties of the vanishing/exploding (V/E)
gradient issue plaguing the training of neural networks (NNs), significant
efforts have been exerted to overcome this obstacle. However, a clear solution
to the V/E issue remained elusive so far. In this manuscript a new architecture
of NN is proposed, designed to mathematically prevent the V/E issue to occur.
The pursuit of approximate dynamical isometry, i.e. parameter configurations
where the singular values of the input-output Jacobian are tightly distributed
around 1, leads to the derivation of a NN's architecture that shares common
traits with the popular Residual Network model. Instead of skipping connections
between layers, the idea is to filter the previous activations orthogonally and
add them to the nonlinear activations of the next layer, realising a convex
combination between them. Remarkably, the impossibility for the gradient
updates to either vanish or explode is demonstrated with analytical bounds that
hold even in the infinite depth case. The effectiveness of this method is
empirically proved by means of training via backpropagation an extremely deep
multilayer perceptron of 50k layers, and an Elman NN to learn long-term
dependencies in the input of 10k time steps in the past. Compared with other
architectures specifically devised to deal with the V/E problem, e.g. LSTMs for
recurrent NNs, the proposed model is way simpler yet more effective.
Surprisingly, a single layer vanilla RNN can be enhanced to reach state of the
art performance, while converging super fast; for instance on the psMNIST task,
it is possible to get test accuracy of over 94% in the first epoch, and over
98% after just 10 epochs.
- Abstract(参考訳): ニューラルネットワーク(NN)のトレーニングを悩ませるV/E勾配問題の初期90年代以降、この障害を克服するために多大な努力が払われている。
しかし、V/E問題に対する明確な解決策は、まだ解明されていない。
本稿では,V/E問題の発生を数学的に防止するために,NNの新しいアーキテクチャを提案する。
近似力学等方性、すなわち入力出力ヤコビアンの特異値が1付近に密分布しているパラメータ構成の追求は、一般的なResidual Networkモデルと共通の特性を共有するNNアーキテクチャの導出につながる。
レイヤ間の接続をスキップする代わりに、以前のアクティベーションを直交してフィルタリングし、次のレイヤの非線形アクティベーションに追加し、それらの間の凸結合を実現する。
注目すべきは、勾配の更新が消えるか爆発するかは、無限深度の場合でさえ保持する解析的境界で示されることである。
本手法の有効性は,50k層からなる超深層パーセプトロンのバックプロパゲーションによるトレーニングと,過去10k時間ステップの入力における長期依存性を学習するためのエルマンNNにより実証的に証明されている。
V/E問題に特に対処するために考案された他のアーキテクチャ、例えば繰り返しNNのLSTMと比較すると、提案されたモデルはずっとシンプルだがより効果的である。
例えば、psMNISTタスクでは、最初のエポックでは94%、わずか10エポックでは98%以上のテスト精度が得られる。
関連論文リスト
- Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Going Deeper With Directly-Trained Larger Spiking Neural Networks [20.40894876501739]
スパイキングニューラルネットワーク(SNN)は、バイオユースブルな情報とイベント駆動信号処理のためのコーディングを約束している。
しかし、SNNのユニークな動作モードにより、従来のネットワークよりもトレーニングが困難になる。
CIF依存型バッチ正規化法(tpladBN)を提案する。
論文 参考訳(メタデータ) (2020-10-29T07:15:52Z) - Random Vector Functional Link Networks for Function Approximation on Manifolds [8.535815777849786]
ランダムな入力-隠蔽層重みとバイアスを持つ単一層ニューラルネットが実際に成功していることを示す。
さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用する。
論文 参考訳(メタデータ) (2020-07-30T23:50:44Z) - Learning Sparse Filters in Deep Convolutional Neural Networks with a
l1/l2 Pseudo-Norm [5.3791844634527495]
ディープニューラルネットワーク(DNN)は、多くのタスクで効率的であることが証明されているが、高いメモリと計算コストが伴う。
近年の研究では、それらの構造は性能を損なうことなくよりコンパクトにすることができることが示されている。
フィルタ係数に定義された比 l1/l2 の擬ノルムに基づいて, 疎度誘導正規化項を提案する。
論文 参考訳(メタデータ) (2020-07-20T11:56:12Z) - Enabling Deep Spiking Neural Networks with Hybrid Conversion and Spike
Timing Dependent Backpropagation [10.972663738092063]
Spiking Neural Networks(SNN)は非同期離散イベント(スパイク)で動作する
本稿では,深層SNNのための計算効率のよいトレーニング手法を提案する。
我々は、SNN上のImageNetデータセットの65.19%のトップ1精度を250タイムステップで達成し、同様の精度で変換されたSNNに比べて10倍高速である。
論文 参考訳(メタデータ) (2020-05-04T19:30:43Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。