論文の概要: Transformer Normalisation Layers and the Independence of Semantic Subspaces
- arxiv url: http://arxiv.org/abs/2406.17837v1
- Date: Tue, 25 Jun 2024 16:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:37:10.290512
- Title: Transformer Normalisation Layers and the Independence of Semantic Subspaces
- Title(参考訳): 変圧器正規化層と意味空間の独立性
- Authors: Stephen Menary, Samuel Kaski, Andre Freitas,
- Abstract要約: 我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。
標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
- 参考スコア(独自算出の注目度): 17.957364289876548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that transformers can solve contextual reasoning tasks by internally executing computational graphs called circuits. Circuits often use attention to logically match information from subspaces of the representation, e.g. using position-in-sequence to identify the previous token. In this work, we consider a semantic subspace to be any independent subspace of the latent representation that can fully determine an attention distribution. We show that Pre-Norm, the placement of normalisation layer used by state-of-the-art transformers, violates this ability unless the model learns a strict representation structure of orthogonal spheres. This is because it causes linear subspaces to interfere through their common normalisation factor. Theoretically, we analyse circuit stability by modelling this interference as random noise on the $L_2$-norms of the query/key/value vectors, predicting a phenomenon of circuit collapse when sparse-attention shifts to a different token. Empirically, we investigate the sensitivity of real-world models trained for mathematical addition, observing a 1% rate of circuit collapse when the norms are artificially perturbed by $\lesssim$10%. We contrast Pre-Norm with QKV-Norm, which places normalisation after the attention head's linear operators. Theoretically this relaxes the representational constraints. Empirically we observe comparable in-distribution but worse out-of-distribution performance.
- Abstract(参考訳): 近年の研究では、変換器は回路と呼ばれる計算グラフを内部的に実行することで、文脈推論のタスクを解くことができることが示されている。
回路はしばしば、表現のサブスペースからの情報に論理的に一致するために注意を払っている。
本研究では、意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
本研究では, モデルが直交球面の厳密な表現構造を学習しない限り, 最先端の変圧器が使用する正規化層の配置であるPre-Normが, この能力に反することを示す。
これは線型部分空間がそれらの共通正規化因子を介して干渉するからである。
理論的には、この干渉をクエリ/キー/値ベクトルの$L_2$-normsのランダムノイズとしてモデル化し、スパースアテンションが異なるトークンに移行すると回路崩壊現象を予測する。
実験により,標準値が$\lesssim$10%で人工摂動された場合,回路崩壊の1%の速度を観察し,実世界のモデルが数学的付加のために訓練された場合の感度について検討した。
我々は、注目ヘッドの線形作用素の後に正規化を行うQKV-NormとPre-Normを対比する。
理論的には、これは表現的制約を緩和する。
経験的に比較すると、分配性能は同等だが、分配性能は悪くなる。
関連論文リスト
- On the phase diagram of extensive-rank symmetric matrix denoising beyond rotational invariance [5.058205542605482]
隠れ信号が係数行列 $XXintercal$ で回転不変でないとき、行列の分解の理解に向けて前進する。
我々は、因子化(すなわち、$X$自身を推定する)が符号と置換普遍性(英語版)(Sign and permutation universality)に到達できるのは、遷移を超えてのみであると主張する。
我々はまた、因子化(すなわち、$X$自身を推定する)が符号と置換普遍性(英語版)(Sign and permutation universality)に到達できるのは、遷移を超えてのみであると主張する。
論文 参考訳(メタデータ) (2024-11-04T10:50:37Z) - Refined Risk Bounds for Unbounded Losses via Transductive Priors [58.967816314671296]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Operator space fragmentation in perturbed Floquet-Clifford circuits [0.0]
フロッケ量子回路は、幅広い非平衡量子状態を実現することができる。
ランダムなフロケ・クリフォード回路における演算子の局所化とカオス発生の安定性について検討する。
論文 参考訳(メタデータ) (2024-08-02T19:18:30Z) - A metaplectic perspective of uncertainty principles in the Linear Canonical Transform domain [0.0]
与えられた関数の線形正準変換対に対するハイゼンベルクの不確実性原理を導出する。
また、時間周波数平面における2つの中間方向に沿った信号を表す2次位相空間分布を提案する。
論文 参考訳(メタデータ) (2024-05-17T09:26:48Z) - Uniformly Decaying Subspaces for Error Mitigated Quantum Computation [2.434659102843556]
リンドブラッドマスター方程式が支配する系において一様に崩壊する部分空間を得るための一般的な条件を示す。
このような部分空間に符号化されたダイナミクスの期待値は、ノイズフリー期待値の偏りのない推定値である。
このような部分空間は、ノイズの完全な知識を必要とせずに、崩壊率の1次変動を排除できることを示す。
論文 参考訳(メタデータ) (2024-02-29T22:25:19Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z) - Unsupervised Disentanglement with Tensor Product Representations on the
Torus [78.6315881294899]
オートエンコーダで表現を学習する現在の方法では、ほとんどベクターを潜在表現として用いている。
本研究では,この目的のためにテンソル積構造を用いることを提案する。
通常分布する特徴を対象とする従来の変分法とは対照的に,表現の潜在空間は単位円の集合上に均一に分布する。
論文 参考訳(メタデータ) (2022-02-13T04:23:12Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。