論文の概要: On the impact of activation and normalization in obtaining isometric
embeddings at initialization
- arxiv url: http://arxiv.org/abs/2305.18399v2
- Date: Sun, 29 Oct 2023 17:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:48:27.158282
- Title: On the impact of activation and normalization in obtaining isometric
embeddings at initialization
- Title(参考訳): 初期化時の等尺埋め込み獲得における活性化と正規化の影響について
- Authors: Amir Joudaki, Hadi Daneshmand, Francis Bach
- Abstract要約: 層正規化は多層パーセプトロンのグラム行列を恒等行列に偏ることを示す。
活性化関数のHermite展開を用いて、この速度を定量化する。
- 参考スコア(独自算出の注目度): 3.3637738618247157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the structure of the penultimate Gram matrix in
deep neural networks, which contains the pairwise inner products of outputs
corresponding to a batch of inputs. In several architectures it has been
observed that this Gram matrix becomes degenerate with depth at initialization,
which dramatically slows training. Normalization layers, such as batch or layer
normalization, play a pivotal role in preventing the rank collapse issue.
Despite promising advances, the existing theoretical results do not extend to
layer normalization, which is widely used in transformers, and can not
quantitatively characterize the role of non-linear activations. To bridge this
gap, we prove that layer normalization, in conjunction with activation layers,
biases the Gram matrix of a multilayer perceptron towards the identity matrix
at an exponential rate with depth at initialization. We quantify this rate
using the Hermite expansion of the activation function.
- Abstract(参考訳): 本稿では,入力のバッチに対応する出力のペアワイズ内積を含むディープニューラルネットワークにおけるペナルティメートグラム行列の構造について検討する。
いくつかのアーキテクチャでは、このグラム行列は初期化の深さで縮退し、トレーニングが劇的に遅くなることが観察されている。
バッチやレイヤの正規化といった正規化層は、ランクの崩壊を防止する上で重要な役割を果たす。
有望な進歩にもかかわらず、既存の理論的な結果はトランスフォーマーで広く使われている層正規化に及ばず、非線形活性化の役割を定量的に特徴づけることができない。
このギャップを埋めるために、活性化層と共に層正規化が、初期化の深さが指数関数的速度で同一性行列に向かって多層パーセプトロンのグラム行列を偏らせることを証明した。
活性化関数のHermite展開を用いて、この速度を定量化する。
関連論文リスト
- Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Linearly Constrained Weights: Reducing Activation Shift for Faster Training of Neural Networks [1.7767466724342067]
完全連結層と畳み込み層の両方の活性化シフトを低減するために,線形拘束重み (LCW) を提案する。
LCWは、消失する勾配問題を解くことにより、シグモイド活性化関数を持つディープフィードフォワードネットワークを効率的に訓練することができる。
論文 参考訳(メタデータ) (2024-03-08T01:01:24Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Generative Flows with Matrix Exponential [25.888286821451562]
生成フローモデルは、抽出可能な正確な確率と効率的なサンプリングの特性を享受する。
行列指数を生成フローに組み込む。
本モデルは, 生成フローモデル間の密度推定において高い性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T11:18:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。