論文の概要: Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings
- arxiv url: http://arxiv.org/abs/2305.13571v1
- Date: Tue, 23 May 2023 01:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:00:33.554941
- Title: Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings
- Title(参考訳): 位置埋め込みのない変圧器言語モデルの自己注意変動における潜時位置情報
- Authors: Ta-Chung Chi and Ting-Han Fan and Li-Wei Chen and Alexander I.
Rudnicky and Peter J. Ramadge
- Abstract要約: 凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
- 参考スコア(独自算出の注目度): 68.61185138897312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of positional embeddings in transformer language models is widely
accepted. However, recent research has called into question the necessity of
such embeddings. We further extend this inquiry by demonstrating that a
randomly initialized and frozen transformer language model, devoid of
positional embeddings, inherently encodes strong positional information through
the shrinkage of self-attention variance. To quantify this variance, we derive
the underlying distribution of each step within a transformer layer. Through
empirical validation using a fully pretrained model, we show that the variance
shrinkage effect still persists after extensive gradient updates. Our findings
serve to justify the decision to discard positional embeddings and thus
facilitate more efficient pretraining of transformer language models.
- Abstract(参考訳): トランス言語モデルにおける位置埋め込みの使用は広く受け入れられている。
しかし、近年の研究はそのような埋め込みの必要性を疑問視している。
さらに、位置埋め込みを欠いたランダムに初期化・凍結したトランスフォーマー言語モデルが、自己注意分散の縮小を通じて、本質的に強い位置情報を符号化することを示した。
この分散を定量化するために、トランスフォーマー層内の各ステップの基底分布を導出する。
完全な事前学習モデルを用いた経験的検証により,広範囲な勾配更新後も分散収縮効果が持続することを示す。
本研究は,位置埋め込みを廃止し,トランスフォーマー言語モデルのより効率的な事前学習を促進する決定を正当化するのに役立つ。
関連論文リスト
- On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Pathologies in priors and inference for Bayesian transformers [71.97183475225215]
ベイズ推定を用いた予測不確実性の観点からトランスフォーマーモデルを改善する試みは成功していない。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
本稿では,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-08T10:35:27Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z) - Transformer-Based Source-Free Domain Adaptation [134.67078085569017]
本研究では,ソースフリードメイン適応(SFDA)の課題について検討する。
我々は、FDAの一般化モデルを学ぶためのTransformer(TransDA)という、汎用的で効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-28T23:06:26Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。