Fugu-MT 論文翻訳(概要): Outliers Dimensions that Disrupt Transformers Are Driven by Frequency

論文の概要: Outliers Dimensions that Disrupt Transformers Are Driven by Frequency

arxiv url: http://arxiv.org/abs/2205.11380v1
Date: Mon, 23 May 2022 15:19:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 15:18:00.083485
Title: Outliers Dimensions that Disrupt Transformers Are Driven by Frequency
Title（参考訳）: ディスラプト変圧器が周波数で駆動する外周寸法
Authors: Giovanni Puccetti, Anna Rogers, Aleksandr Drozd and Felice Dell'Orletta
Abstract要約: トークン周波数が異常現象に寄与することを示す。また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
参考スコア（独自算出の注目度）: 79.22656609637525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based language models are known to display anisotropic behavior: the token embeddings are not homogeneously spread in space, but rather accumulate along certain directions. A related recent finding is the outlier phenomenon: the parameters in the final element of Transformer layers that consistently have unusual magnitude in the same dimension across the model, and significantly degrade its performance if disabled. We replicate the evidence for the outlier phenomenon and we link it to the geometry of the embedding space. Our main finding is that in both BERT and RoBERTa the token frequency, known to contribute to anisotropicity, also contributes to the outlier phenomenon. In its turn, the outlier phenomenon contributes to the "vertical" self-attention pattern that enables the model to focus on the special tokens. We also find that, surprisingly, the outlier effect on the model performance varies by layer, and that variance is also related to the correlation between outlier magnitude and encoded token frequency.
Abstract（参考訳）: トランスフォーマーベースの言語モデルは異方性を示すことが知られている:トークンの埋め込みは空間に均質に広がるのではなく、特定の方向に沿って蓄積される。トランスフォーマー層の最終要素のパラメータは、モデル全体の同じ次元において常に異常な大きさを持ち、無効になれば性能が著しく低下する。我々は、アウトリアー現象の証拠を再現し、それを埋め込み空間の幾何学と結びつける。我々の主な発見は、BERTとRoBERTaの両方において、異方性に寄与することが知られているトークン周波数が、外れ値現象に寄与することである。逆に、アウトリアー現象はモデルが特別なトークンに焦点を合わせることを可能にする「垂直」なセルフアテンションパターンに寄与する。また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。

関連論文リスト

Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文参考訳（メタデータ） (2025-04-30T03:57:28Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文参考訳（メタデータ） (2024-06-26T11:53:35Z)
Transformer Normalisation Layers and the Independence of Semantic Subspaces [17.957364289876548]
我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
論文参考訳（メタデータ） (2024-06-25T16:16:38Z)
Anisotropy Is Inherent to Self-Attention in Transformers [0.11510009152620666]
本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
論文参考訳（メタデータ） (2024-01-22T17:26:55Z)
Is Anisotropy Inherent to Transformers? [0.0]
本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
論文参考訳（メタデータ） (2023-06-13T09:54:01Z)
Random unitaries, Robustness, and Complexity of Entanglement [0.0]
一般回路の存在下での絡み合いのダイナミクスは、絡み合いスペクトルの統計的性質の知識によって予測できることが広く受け入れられている。局所ゲートの異なる集合によって生成されるメトロポリス型絡み合い冷却アルゴリズムを適用して,この仮定を検証した。絡み合いのダイナミクスは異なるゲートの集合だけでなく位相にも強く依存している。
論文参考訳（メタデータ） (2022-10-24T18:00:06Z)
Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文参考訳（メタデータ） (2022-02-17T12:20:52Z)
Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文参考訳（メタデータ） (2021-08-17T15:01:46Z)
Quantum asymmetry and noisy multi-mode interferometry [55.41644538483948]
量子非対称性 (quantum asymmetric) は、ジェネレータの固有空間間のコヒーレンス量と一致する物理資源である。非対称性は、縮退部分空間内のコヒーレンスを増大させる結果として現れる可能性がある。
論文参考訳（メタデータ） (2021-07-23T07:30:57Z)
Hard-label Manifolds: Unexpected Advantages of Query Efficiency for Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文参考訳（メタデータ） (2021-03-04T20:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。