論文の概要: Stabilizing RNN Gradients through Pre-training
- arxiv url: http://arxiv.org/abs/2308.12075v1
- Date: Wed, 23 Aug 2023 11:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:16:54.031768
- Title: Stabilizing RNN Gradients through Pre-training
- Title(参考訳): 事前学習によるRNN勾配の安定化
- Authors: Luca Herranz-Celotti, Jean Rouat
- Abstract要約: 学習の理論は、勾配のばらつきを深さや時間による指数的な成長から防ぎ、トレーニングを安定させ、改善することを示唆している。
我々は、既知の安定性理論を拡張して、深い再帰ネットワークのより広範なファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.335932527835653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous theories of learning suggest to prevent the gradient variance from
exponential growth with depth or time, to stabilize and improve training.
Typically, these analyses are conducted on feed-forward fully-connected neural
networks or single-layer recurrent neural networks, given their mathematical
tractability. In contrast, this study demonstrates that pre-training the
network to local stability can be effective whenever the architectures are too
complex for an analytical initialization. Furthermore, we extend known
stability theories to encompass a broader family of deep recurrent networks,
requiring minimal assumptions on data and parameter distribution, a theory that
we refer to as the Local Stability Condition (LSC). Our investigation reveals
that the classical Glorot, He, and Orthogonal initialization schemes satisfy
the LSC when applied to feed-forward fully-connected neural networks. However,
analysing deep recurrent networks, we identify a new additive source of
exponential explosion that emerges from counting gradient paths in a
rectangular grid in depth and time. We propose a new approach to mitigate this
issue, that consists on giving a weight of a half to the time and depth
contributions to the gradient, instead of the classical weight of one. Our
empirical results confirm that pre-training both feed-forward and recurrent
networks to fulfill the LSC often results in improved final performance across
models. This study contributes to the field by providing a means to stabilize
networks of any complexity. Our approach can be implemented as an additional
step before pre-training on large augmented datasets, and as an alternative to
finding stable initializations analytically.
- Abstract(参考訳): 学習の多くの理論は、勾配のばらつきを深さや時間による指数的な成長から防ぎ、トレーニングを安定させ改善することを示唆している。
一般に、これらの解析は、数学的扱いやすさからフィードフォワード完全連結ニューラルネットワークまたは単層リカレントニューラルネットワーク上で行われる。
対照的に,本研究では,ネットワークを局所安定に事前学習することは,アーキテクチャが解析初期化に複雑すぎる場合に有効であることを示す。
さらに、我々は既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要としながら、より広範な再帰的ネットワークのファミリーを包含する。
本研究により, フィードフォワード完全連結ニューラルネットワークに適用した場合, 古典的なGrot, He, Orthogonal の初期化スキームが LSC を満たすことが明らかとなった。
しかし, ディープリカレントネットワークの解析により, 矩形格子内の勾配経路を深さと時間で数えることから生じる指数関数的爆発の新たな発生源を同定した。
そこで本研究では, 従来の重量ではなく, グラデーションに半分の時間と深さの寄与を与えるという, この問題を緩和するための新しいアプローチを提案する。
実験の結果,フィードフォワードネットワークとリカレントネットワークの両方を事前学習することで,モデル間における最終性能が向上することが確認できた。
この研究は、あらゆる複雑性のネットワークを安定化させる手段を提供することによって、この分野に寄与する。
提案手法は,大規模なデータセットを事前学習する前に追加のステップとして実装することができる。
関連論文リスト
- Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。