論文の概要: Outliers Dimensions that Disrupt Transformers Are Driven by Frequency
- arxiv url: http://arxiv.org/abs/2205.11380v1
- Date: Mon, 23 May 2022 15:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:18:00.083485
- Title: Outliers Dimensions that Disrupt Transformers Are Driven by Frequency
- Title(参考訳): ディスラプト変圧器が周波数で駆動する外周寸法
- Authors: Giovanni Puccetti, Anna Rogers, Aleksandr Drozd and Felice
Dell'Orletta
- Abstract要約: トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
- 参考スコア(独自算出の注目度): 79.22656609637525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models are known to display anisotropic behavior:
the token embeddings are not homogeneously spread in space, but rather
accumulate along certain directions. A related recent finding is the outlier
phenomenon: the parameters in the final element of Transformer layers that
consistently have unusual magnitude in the same dimension across the model, and
significantly degrade its performance if disabled. We replicate the evidence
for the outlier phenomenon and we link it to the geometry of the embedding
space. Our main finding is that in both BERT and RoBERTa the token frequency,
known to contribute to anisotropicity, also contributes to the outlier
phenomenon. In its turn, the outlier phenomenon contributes to the "vertical"
self-attention pattern that enables the model to focus on the special tokens.
We also find that, surprisingly, the outlier effect on the model performance
varies by layer, and that variance is also related to the correlation between
outlier magnitude and encoded token frequency.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは異方性を示すことが知られている:トークンの埋め込みは空間に均質に広がるのではなく、特定の方向に沿って蓄積される。
トランスフォーマー層の最終要素のパラメータは、モデル全体の同じ次元において常に異常な大きさを持ち、無効になれば性能が著しく低下する。
我々は、アウトリアー現象の証拠を再現し、それを埋め込み空間の幾何学と結びつける。
我々の主な発見は、BERTとRoBERTaの両方において、異方性に寄与することが知られているトークン周波数が、外れ値現象に寄与することである。
逆に、アウトリアー現象はモデルが特別なトークンに焦点を合わせることを可能にする「垂直」なセルフアテンションパターンに寄与する。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
関連論文リスト
- Anisotropy Is Inherent to Self-Attention in Transformers [0.11510009152620666]
本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
論文 参考訳(メタデータ) (2024-01-22T17:26:55Z) - Is Anisotropy Inherent to Transformers? [0.0]
本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
論文 参考訳(メタデータ) (2023-06-13T09:54:01Z) - AnomalyBERT: Self-Supervised Transformer for Time Series Anomaly
Detection using Data Degradation Scheme [0.7216399430290167]
時系列、特にラベルなしデータに対する異常検出タスクは、難しい問題である。
自己教師型モデルトレーニングに適切なデータ劣化スキームを適用することで、この問題に対処する。
自己認識機構に触発されて、時間的文脈を認識するトランスフォーマーベースのアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-05-08T05:42:24Z) - Random unitaries, Robustness, and Complexity of Entanglement [0.0]
一般回路の存在下での絡み合いのダイナミクスは、絡み合いスペクトルの統計的性質の知識によって予測できることが広く受け入れられている。
局所ゲートの異なる集合によって生成されるメトロポリス型絡み合い冷却アルゴリズムを適用して,この仮定を検証した。
絡み合いのダイナミクスは異なるゲートの集合だけでなく位相にも強く依存している。
論文 参考訳(メタデータ) (2022-10-24T18:00:06Z) - Weight-variant Latent Causal Models [79.79711624326299]
因果表現学習は、低レベルの観測の背後にある潜伏した高レベルの因果変数を明らかにする。
本研究では,潜伏因果変数の同定に焦点をあてる。
推移性は潜伏因果変数の識別性を著しく阻害することを示す。
本稿では,潜時因果変数を直接学習する構造式caUsAl変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2022-08-30T11:12:59Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Classification and Adversarial examples in an Overparameterized Linear
Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。
学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。
敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文 参考訳(メタデータ) (2021-09-27T17:35:42Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Quantum asymmetry and noisy multi-mode interferometry [55.41644538483948]
量子非対称性 (quantum asymmetric) は、ジェネレータの固有空間間のコヒーレンス量と一致する物理資源である。
非対称性は、縮退部分空間内のコヒーレンスを増大させる結果として現れる可能性がある。
論文 参考訳(メタデータ) (2021-07-23T07:30:57Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。