論文の概要: Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets
- arxiv url: http://arxiv.org/abs/2105.07205v1
- Date: Sat, 15 May 2021 11:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 09:37:46.615634
- Title: Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets
- Title(参考訳): 変圧器とResNetの層正規化によるスキップ接続再考
- Authors: Fenglin Liu, Xuancheng Ren, Zhiyuan Zhang, Xu Sun, Yuexian Zou
- Abstract要約: スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
- 参考スコア(独自算出の注目度): 49.87919454950763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skip connection, is a widely-used technique to improve the performance and
the convergence of deep neural networks, which is believed to relieve the
difficulty in optimization due to non-linearity by propagating a linear
component through the neural network layers. However, from another point of
view, it can also be seen as a modulating mechanism between the input and the
output, with the input scaled by a pre-defined value one. In this work, we
investigate how the scale factors in the effectiveness of the skip connection
and reveal that a trivial adjustment of the scale will lead to spurious
gradient exploding or vanishing in line with the deepness of the models, which
could be addressed by normalization, in particular, layer normalization, which
induces consistent improvements over the plain skip connection. Inspired by the
findings, we further propose to adaptively adjust the scale of the input by
recursively applying skip connection with layer normalization, which promotes
the performance substantially and generalizes well across diverse tasks
including both machine translation and image classification datasets.
- Abstract(参考訳): スキップ接続は、ディープニューラルネットワークの性能と収束を改善するために広く使われている手法であり、ニューラルネットワーク層を通じて線形成分を伝播することにより、非線形性による最適化の難しさを緩和すると考えられている。
しかし、別の観点からは、入力と出力の間の変調機構として見ることができ、入力は事前に定義された値によってスケールされる。
本研究は,スキップ接続の有効性におけるスケール要因について検討し,スケールの微調整が,モデルの深さと一致して散発的な勾配の爆発や消失を招き,特に平滑なスキップ接続に対して一貫した改善をもたらすような正規化,層正規化によって対処できることを明らかにした。
この結果に触発されて我々はさらに,スキップ接続とレイヤ正規化を反復的に適用することにより,入力のスケールを適応的に調整する手法を提案する。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Normalization-Equivariant Neural Networks with Application to Image
Denoising [3.591122855617648]
本稿では,ニューラルネットの正規化-等分散が設計によって成り立つように適応する手法を提案する。
私たちの主張は、通常の畳み込み層だけでなく、すべての活性化関数も、ニューラルネットワークから完全に取り除くべきだということです。
画像復号化実験の結果、正規化等価ニューラルネットワークは、条件付けの改善に加えて、ノイズレベルをまたいだより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2023-06-08T08:42:08Z) - Combining Explicit and Implicit Regularization for Efficient Learning in
Deep Networks [3.04585143845864]
深い線形ネットワークでは、勾配勾配は行列の完備化/ファクトリゼーションタスクの低ランク解に対して暗黙的に正規化される。
適応勾配の一般化にのみ作用するこの暗黙バイアスを反映した明示的なペナルティを提案する。
この組み合わせにより、単層ネットワークは、深い線形ネットワークに匹敵する縮退誤差で低ランク近似を達成できる。
論文 参考訳(メタデータ) (2023-06-01T04:47:17Z) - Predictive coding, precision and natural gradients [2.1601966913620325]
学習精度の高い階層型予測符号化ネットワークは,教師あり学習課題や教師なし学習課題を解くことができることを示す。
イメージ入力の教師なし自動符号化に適用すると、決定論的ネットワークは階層的に整理され、非絡み合った埋め込みを生成する。
論文 参考訳(メタデータ) (2021-11-12T21:05:03Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。