論文の概要: On the impact of activation and normalization in obtaining isometric
embeddings at initialization
- arxiv url: http://arxiv.org/abs/2305.18399v1
- Date: Sun, 28 May 2023 14:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:44:34.389415
- Title: On the impact of activation and normalization in obtaining isometric
embeddings at initialization
- Title(参考訳): 初期化時の等尺埋め込み獲得における活性化と正規化の影響について
- Authors: Amir Joudaki, Hadi Daneshmand, Francis Bach
- Abstract要約: 層正規化は多層パーセプトロンのグラム行列を等方性に偏っていることを示す。
活性化関数のHermite展開を用いて、この速度を定量化する。
- 参考スコア(独自算出の注目度): 1.864159622659575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the structure of the penultimate Gram matrix in
deep neural networks, which contains the pairwise inner products of outputs
corresponding to a batch of inputs. In several architectures it has been
observed that this Gram matrix becomes degenerate with depth at initialization,
which dramatically slows training. Normalization layers, such as batch or layer
normalization, play a pivotal role in preventing the rank collapse issue.
Despite promising advances, the existing theoretical results (i) do not extend
to layer normalization, which is widely used in transformers, (ii) can not
characterize the bias of normalization quantitatively at finite depth.
To bridge this gap, we provide a proof that layer normalization, in
conjunction with activation layers, biases the Gram matrix of a multilayer
perceptron towards isometry at an exponential rate with depth at
initialization. We quantify this rate using the Hermite expansion of the
activation function, highlighting the importance of higher order ($\ge 2$)
Hermite coefficients in the bias towards isometry.
- Abstract(参考訳): 本稿では,入力のバッチに対応する出力のペアワイズ内積を含むディープニューラルネットワークにおけるペナルティメートグラム行列の構造について検討する。
いくつかのアーキテクチャでは、このグラム行列は初期化の深さで縮退し、トレーニングが劇的に遅くなることが観察されている。
バッチやレイヤの正規化といった正規化層は、ランクの崩壊を防止する上で重要な役割を果たす。
有望な進歩にもかかわらず、既存の理論結果
(i) 変圧器で広く使用される層正規化には拡張しない。
(ii) 正規化のバイアスを有限深さで定量的に特徴づけることができない。
このギャップを埋めるために, 活性化層と連動して, 層正規化により, 多層パーセプトロンのグラム行列が初期化深さの指数関数的速度で等化に偏っていることを証明した。
活性化関数のエルミート展開を用いてこの速度を定量化し、アイソメトリへのバイアスにおける高次($2$)エルミート係数の重要性を強調する。
関連論文リスト
- Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Linearly Constrained Weights: Reducing Activation Shift for Faster Training of Neural Networks [1.7767466724342067]
完全連結層と畳み込み層の両方の活性化シフトを低減するために,線形拘束重み (LCW) を提案する。
LCWは、消失する勾配問題を解くことにより、シグモイド活性化関数を持つディープフィードフォワードネットワークを効率的に訓練することができる。
論文 参考訳(メタデータ) (2024-03-08T01:01:24Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Generative Flows with Matrix Exponential [25.888286821451562]
生成フローモデルは、抽出可能な正確な確率と効率的なサンプリングの特性を享受する。
行列指数を生成フローに組み込む。
本モデルは, 生成フローモデル間の密度推定において高い性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T11:18:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。