論文の概要: Anisotropy Is Inherent to Self-Attention in Transformers
- arxiv url: http://arxiv.org/abs/2401.12143v2
- Date: Wed, 24 Jan 2024 16:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 11:36:02.364179
- Title: Anisotropy Is Inherent to Self-Attention in Transformers
- Title(参考訳): 異方性は変圧器の自己注意に欠かせない
- Authors: Nathan Godey and \'Eric de la Clergerie and Beno\^it Sagot
- Abstract要約: 本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
- 参考スコア(独自算出の注目度): 0.11510009152620666
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The representation degeneration problem is a phenomenon that is widely
observed among self-supervised learning methods based on Transformers. In NLP,
it takes the form of anisotropy, a singular property of hidden representations
which makes them unexpectedly close to each other in terms of angular distance
(cosine-similarity). Some recent works tend to show that anisotropy is a
consequence of optimizing the cross-entropy loss on long-tailed distributions
of tokens. We show in this paper that anisotropy can also be observed
empirically in language models with specific objectives that should not suffer
directly from the same consequences. We also show that the anisotropy problem
extends to Transformers trained on other modalities. Our observations suggest
that anisotropy is actually inherent to Transformers-based models.
- Abstract(参考訳): 表現退化問題は、トランスフォーマーに基づく自己教師型学習手法の間で広く見られる現象である。
NLPでは、非等方性(英: anisotropy)は、隠れた表現の特異な性質であり、角距離(cosine-similarity)の点でそれらを予期せず互いに近接させる。
いくつかの最近の研究は、異方性はトークンの長期分布におけるクロスエントロピー損失の最適化の結果であることを示している。
本稿では,同じ結果を直接受けるべきではない特定の目的を持つ言語モデルにおいても,異方性が実証的に観察できることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにも拡張できることを示した。
この結果から, 異方性はトランスフォーマーモデルに固有であることが示唆された。
関連論文リスト
- Is Anisotropy Inherent to Transformers? [0.0]
本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
論文 参考訳(メタデータ) (2023-06-13T09:54:01Z) - Entanglement Entropy in Ground States of Long-Range Fermionic Systems [0.0]
一次元格子上の様々な自由フェルミオンモデルの基底状態絡み合いエントロピーのスケーリングについて検討する。
ローカルシステムにおける領域法スケーリングへの移行を規定する,さまざまなシステムに共通する$alpha_c$が存在するかどうかを問う。
論文 参考訳(メタデータ) (2023-02-13T23:08:01Z) - Statistical Properties of the Entropy from Ordinal Patterns [55.551675080361335]
大規模な時系列モデルに対するエントロピー・統計複雑性の連立分布を知っていれば、今日まで利用できない統計テストが可能になるだろう。
実正規化エントロピーが零でも1でもないモデルに対して、経験的シャノンのエントロピーの分布を特徴づける。
2つの信号が同じシャノンのエントロピーを持つ順序パターンを生成するという仮説を否定するのに十分な証拠があるかどうかを検証する。
論文 参考訳(メタデータ) (2022-09-15T23:55:58Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - On Isotropy Calibration of Transformers [10.294618771570985]
変圧器モデルの埋め込み空間の研究は、文脈表現の分布が非常に異方性であることを示唆している。
最近の研究では、変圧器の埋め込み空間が局所等方性であることが示されており、これらのモデルは既にその埋め込み空間の表現能力を利用することができることを示唆している。
我々は, 変圧器の等方性校正のための最先端手法の実証評価を行い, モデルとタスク間で一貫した改善が得られないことを見出した。
論文 参考訳(メタデータ) (2021-09-27T18:54:10Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Eigenstate entanglement entropy in $PT$ invariant non-Hermitian system [0.0]
我々は、$PT$変換の組み合わせで不変なフェルミオンの非エルミート的非相互作用モデルを研究する。
本モデルでは, ハーミシティ破壊パラメータを調整した場合に, PT$アンブローク位相から破壊位相への位相遷移を示す。
論文 参考訳(メタデータ) (2021-02-01T19:00:08Z) - Generalized Entropy Regularization or: There's Nothing Special about
Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。
モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。
我々は,他のエントロピー正規化手法の使用を推奨する。
論文 参考訳(メタデータ) (2020-05-02T12:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。