論文の概要: Transformer Language Models without Positional Encodings Still Learn
Positional Information
- arxiv url: http://arxiv.org/abs/2203.16634v1
- Date: Wed, 30 Mar 2022 19:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 13:24:49.427184
- Title: Transformer Language Models without Positional Encodings Still Learn
Positional Information
- Title(参考訳): 位置エンコーディングのないトランスフォーマー言語モデルはまだ位置情報を学習する
- Authors: Adi Haviv, Ori Ram, Ofir Press, Peter Izsak and Omer Levy
- Abstract要約: 明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
- 参考スコア(独自算出の注目度): 45.42248458957122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers typically require some form of positional encoding, such as
positional embeddings, to process natural language sequences. Surprisingly, we
find that transformer language models without any explicit positional encoding
are still competitive with standard models, and that this phenomenon is robust
across different datasets, model sizes, and sequence lengths. Probing
experiments reveal that such models acquire an implicit notion of absolute
positions throughout the network, effectively compensating for the missing
information. We conjecture that causal attention enables the model to infer the
number of predecessors that each token can attend to, thereby approximating its
absolute position.
- Abstract(参考訳): トランスフォーマーは通常、自然言語のシーケンスを処理するために、位置埋め込みのようなある種の位置符号化を必要とする。
驚くべきことに、明示的な位置符号化のないトランスフォーマー言語モデルはまだ標準モデルと競合しており、この現象はさまざまなデータセット、モデルサイズ、シーケンス長にわたって堅牢である。
探索実験により、これらのモデルがネットワーク全体の絶対位置の暗黙的な概念を取得し、欠落した情報を効果的に補うことが明らかになった。
因果的注意により、各トークンが出席できる前任者の数を推測し、絶対的な位置を近似することができると推測する。
関連論文リスト
- Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - The Impact of Positional Encodings on Multilingual Compression [3.454503173118508]
元のトランスアーキテクチャで使われる正弦波の位置エンコーディングに対して、いくつかの修正が提案されている。
まず、これらの修正はモノリンガル言語モデルを改善する傾向にあるが、いずれの修正もより良いマルチリンガル言語モデルをもたらすものではないことを示す。
論文 参考訳(メタデータ) (2021-09-11T23:22:50Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。