論文の概要: Is Anisotropy Inherent to Transformers?
- arxiv url: http://arxiv.org/abs/2306.07656v1
- Date: Tue, 13 Jun 2023 09:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:22:41.757210
- Title: Is Anisotropy Inherent to Transformers?
- Title(参考訳): 異方性はトランスフォーマーに固有ののか?
- Authors: Nathan Godey, \'Eric de la Clergerie, Beno\^it Sagot
- Abstract要約: 本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The representation degeneration problem is a phenomenon that is widely
observed among self-supervised learning methods based on Transformers. In NLP,
it takes the form of anisotropy, a singular property of hidden representations
which makes them unexpectedly close to each other in terms of angular distance
(cosine-similarity). Some recent works tend to show that anisotropy is a
consequence of optimizing the cross-entropy loss on long-tailed distributions
of tokens. We show in this paper that anisotropy can also be observed
empirically in language models with specific objectives that should not suffer
directly from the same consequences. We also show that the anisotropy problem
extends to Transformers trained on other modalities. Our observations tend to
demonstrate that anisotropy might actually be inherent to Transformers-based
models.
- Abstract(参考訳): 表現退化問題は、トランスフォーマーに基づく自己教師型学習手法の間で広く見られる現象である。
NLPでは、非等方性(英: anisotropy)は、隠れた表現の特異な性質であり、角距離(cosine-similarity)の点でそれらを予期せず互いに近接させる。
いくつかの最近の研究は、異方性はトークンの長期分布におけるクロスエントロピー損失の最適化の結果であることを示している。
本稿では,同じ結果を直接受けるべきではない特定の目的を持つ言語モデルにおいても,異方性が実証的に観察できることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにも拡張できることを示した。
我々の観測は、異方性はトランスフォーマーベースのモデルに固有のものであることを示す傾向がある。
関連論文リスト
- Anisotropy Is Inherent to Self-Attention in Transformers [0.11510009152620666]
本研究では,特定の目的を持つ言語モデルにおいて,異方性は経験的に観察可能であることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにまで拡張されることを示す。
論文 参考訳(メタデータ) (2024-01-22T17:26:55Z) - Entanglement Entropy in Ground States of Long-Range Fermionic Systems [0.0]
一次元格子上の様々な自由フェルミオンモデルの基底状態絡み合いエントロピーのスケーリングについて検討する。
ローカルシステムにおける領域法スケーリングへの移行を規定する,さまざまなシステムに共通する$alpha_c$が存在するかどうかを問う。
論文 参考訳(メタデータ) (2023-02-13T23:08:01Z) - Statistical Properties of the Entropy from Ordinal Patterns [55.551675080361335]
大規模な時系列モデルに対するエントロピー・統計複雑性の連立分布を知っていれば、今日まで利用できない統計テストが可能になるだろう。
実正規化エントロピーが零でも1でもないモデルに対して、経験的シャノンのエントロピーの分布を特徴づける。
2つの信号が同じシャノンのエントロピーを持つ順序パターンを生成するという仮説を否定するのに十分な証拠があるかどうかを検証する。
論文 参考訳(メタデータ) (2022-09-15T23:55:58Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - On Isotropy Calibration of Transformers [10.294618771570985]
変圧器モデルの埋め込み空間の研究は、文脈表現の分布が非常に異方性であることを示唆している。
最近の研究では、変圧器の埋め込み空間が局所等方性であることが示されており、これらのモデルは既にその埋め込み空間の表現能力を利用することができることを示唆している。
我々は, 変圧器の等方性校正のための最先端手法の実証評価を行い, モデルとタスク間で一貫した改善が得られないことを見出した。
論文 参考訳(メタデータ) (2021-09-27T18:54:10Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Dynamics of Ultracold Bosons in Artificial Gauge Fields: Angular
Momentum, Fragmentation, and the Variance of Entropy [0.0]
人工ゲージ場に突然切り替えることによって引き起こされる2次元相互作用する超低温ボソンのダイナミクスを考察する。
本研究では, 角運動量, 断片化, エントロピーのエントロピー, あるいは単発画像のエントロピーのばらつきを観測することにより, 創発的ダイナミクスを解析する。
論文 参考訳(メタデータ) (2020-12-17T19:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。