論文の概要: Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse
- arxiv url: http://arxiv.org/abs/2206.03126v1
- Date: Tue, 7 Jun 2022 09:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 00:24:19.159770
- Title: Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse
- Title(参考訳): 変圧器における信号伝搬:理論的展望とランク崩壊の役割
- Authors: Lorenzo Noci, Sotiris Anagnostidis, Luca Biggio, Antonio Orvieto,
Sidak Pal Singh, Aurelien Lucchi
- Abstract要約: 我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
- 参考スコア(独自算出の注目度): 11.486545294602697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved remarkable success in several domains, ranging
from natural language processing to computer vision. Nevertheless, it has been
recently shown that stacking self-attention layers - the distinctive
architectural component of Transformers - can result in rank collapse of the
tokens' representations at initialization. The question of if and how rank
collapse affects training is still largely unanswered, and its investigation is
necessary for a more comprehensive understanding of this architecture. In this
work, we shed new light on the causes and the effects of this phenomenon.
First, we show that rank collapse of the tokens' representations hinders
training by causing the gradients of the queries and keys to vanish at
initialization. Furthermore, we provide a thorough description of the origin of
rank collapse and discuss how to prevent it via an appropriate depth-dependent
scaling of the residual branches. Finally, our analysis unveils that specific
architectural hyperparameters affect the gradients of queries and values
differently, leading to disproportionate gradient norms. This suggests an
explanation for the widespread use of adaptive methods for Transformers'
optimization.
- Abstract(参考訳): トランスフォーマーは自然言語処理からコンピュータビジョンまで、いくつかの領域で顕著な成功を収めてきた。
それにもかかわらず、Transformersのユニークなアーキテクチャコンポーネントである自己アテンションレイヤを積み重ねることで、初期化時にトークン表現のランクが崩れる可能性があることが最近示されている。
ランク崩壊がトレーニングにどのような影響を及ぼすのかという疑問はいまだほとんど答えられておらず、このアーキテクチャをより包括的に理解するにはその調査が必要である。
この研究で私たちは、この現象の原因と効果に新たな光を当てた。
まず,クエリとキーの勾配を初期化時に消失させることで,トークン表現のランク崩壊がトレーニングの妨げとなることを示す。
さらに、ランク崩壊の起源を詳細に説明し、残留枝の適切な深さ依存スケーリングを通じてそれを防ぐ方法について論じる。
最後に,解析結果から,特定のアーキテクチャハイパーパラメータがクエリや値の勾配に異なる影響を与えることが明らかとなり,不均等な勾配規範がもたらされる。
このことはトランスフォーマーの最適化に適応的手法が広く使われることを示唆している。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers [3.686808512438363]
本稿では,無作為マトリクスの観点から,テキスト分割のみの変圧器における信号伝搬について検討する。
本研究では,注目行列の2つの最大の特異値間のテクストスペクトルギャップが,ランク崩壊の原因となることを示す。
そこで本研究では,スペクトルギャップを除去することにより,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。