論文の概要: Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse
- arxiv url: http://arxiv.org/abs/2206.03126v1
- Date: Tue, 7 Jun 2022 09:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 00:24:19.159770
- Title: Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse
- Title(参考訳): 変圧器における信号伝搬:理論的展望とランク崩壊の役割
- Authors: Lorenzo Noci, Sotiris Anagnostidis, Luca Biggio, Antonio Orvieto,
Sidak Pal Singh, Aurelien Lucchi
- Abstract要約: 我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
- 参考スコア(独自算出の注目度): 11.486545294602697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved remarkable success in several domains, ranging
from natural language processing to computer vision. Nevertheless, it has been
recently shown that stacking self-attention layers - the distinctive
architectural component of Transformers - can result in rank collapse of the
tokens' representations at initialization. The question of if and how rank
collapse affects training is still largely unanswered, and its investigation is
necessary for a more comprehensive understanding of this architecture. In this
work, we shed new light on the causes and the effects of this phenomenon.
First, we show that rank collapse of the tokens' representations hinders
training by causing the gradients of the queries and keys to vanish at
initialization. Furthermore, we provide a thorough description of the origin of
rank collapse and discuss how to prevent it via an appropriate depth-dependent
scaling of the residual branches. Finally, our analysis unveils that specific
architectural hyperparameters affect the gradients of queries and values
differently, leading to disproportionate gradient norms. This suggests an
explanation for the widespread use of adaptive methods for Transformers'
optimization.
- Abstract(参考訳): トランスフォーマーは自然言語処理からコンピュータビジョンまで、いくつかの領域で顕著な成功を収めてきた。
それにもかかわらず、Transformersのユニークなアーキテクチャコンポーネントである自己アテンションレイヤを積み重ねることで、初期化時にトークン表現のランクが崩れる可能性があることが最近示されている。
ランク崩壊がトレーニングにどのような影響を及ぼすのかという疑問はいまだほとんど答えられておらず、このアーキテクチャをより包括的に理解するにはその調査が必要である。
この研究で私たちは、この現象の原因と効果に新たな光を当てた。
まず,クエリとキーの勾配を初期化時に消失させることで,トークン表現のランク崩壊がトレーニングの妨げとなることを示す。
さらに、ランク崩壊の起源を詳細に説明し、残留枝の適切な深さ依存スケーリングを通じてそれを防ぐ方法について論じる。
最後に,解析結果から,特定のアーキテクチャハイパーパラメータがクエリや値の勾配に異なる影響を与えることが明らかとなり,不均等な勾配規範がもたらされる。
このことはトランスフォーマーの最適化に適応的手法が広く使われることを示唆している。
関連論文リスト
- Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。
変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。
変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。