論文の概要: On Isotropy Calibration of Transformers
- arxiv url: http://arxiv.org/abs/2109.13304v1
- Date: Mon, 27 Sep 2021 18:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:49:01.219436
- Title: On Isotropy Calibration of Transformers
- Title(参考訳): 変圧器の等方性校正について
- Authors: Yue Ding, Karolis Martinkus, Damian Pascual, Simon Clematide, Roger
Wattenhofer
- Abstract要約: 変圧器モデルの埋め込み空間の研究は、文脈表現の分布が非常に異方性であることを示唆している。
最近の研究では、変圧器の埋め込み空間が局所等方性であることが示されており、これらのモデルは既にその埋め込み空間の表現能力を利用することができることを示唆している。
我々は, 変圧器の等方性校正のための最先端手法の実証評価を行い, モデルとタスク間で一貫した改善が得られないことを見出した。
- 参考スコア(独自算出の注目度): 10.294618771570985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different studies of the embedding space of transformer models suggest that
the distribution of contextual representations is highly anisotropic - the
embeddings are distributed in a narrow cone. Meanwhile, static word
representations (e.g., Word2Vec or GloVe) have been shown to benefit from
isotropic spaces. Therefore, previous work has developed methods to calibrate
the embedding space of transformers in order to ensure isotropy. However, a
recent study (Cai et al. 2021) shows that the embedding space of transformers
is locally isotropic, which suggests that these models are already capable of
exploiting the expressive capacity of their embedding space. In this work, we
conduct an empirical evaluation of state-of-the-art methods for isotropy
calibration on transformers and find that they do not provide consistent
improvements across models and tasks. These results support the thesis that,
given the local isotropy, transformers do not benefit from additional isotropy
calibration.
- Abstract(参考訳): トランスモデルにおける埋め込み空間の異なる研究は、文脈表現の分布が非常に異方的であることを示唆している。
一方、静的な単語表現(Word2VecやGloVeなど)は等方性空間の恩恵を受けることが示されている。
そのため、以前の研究は等方性を確保するために変圧器の埋め込み空間を校正する方法を開発した。
しかし、最近の研究(cai et al. 2021)では、変圧器の埋め込み空間は局所等方性であり、これらのモデルは既にその埋め込み空間の表現能力を利用することができることを示唆している。
本研究では, 変圧器の等方性校正における最先端手法の実証評価を行い, モデルとタスク間で一貫した改善が得られないことを見出した。
これらの結果は、局所的な等方性を考えると、変圧器は追加の等方性キャリブレーションの恩恵を受けないという理論を支持する。
関連論文リスト
- Identification of Mean-Field Dynamics using Transformers [3.8916312075738273]
本稿では, 粒子の挙動を示す粒子系の平均場ダイナミクスを近似するために, 変圧器アーキテクチャを用いた手法について検討する。
具体的には、有限次元変圧器が粒子系を支配する有限次元ベクトル場を効果的に近似できるなら、この変圧器の期待出力は無限次元平均場ベクトル場に対して良い近似を与える。
論文 参考訳(メタデータ) (2024-10-06T19:47:24Z) - Transformers Handle Endogeneity in In-Context Linear Regression [34.458004744956334]
インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。
提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
論文 参考訳(メタデータ) (2024-10-02T06:21:04Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Pathologies in priors and inference for Bayesian transformers [71.97183475225215]
ベイズ推定を用いた予測不確実性の観点からトランスフォーマーモデルを改善する試みは成功していない。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
本稿では,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-08T10:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。