論文の概要: The Curious Case of Absolute Position Embeddings
- arxiv url: http://arxiv.org/abs/2210.12574v1
- Date: Sun, 23 Oct 2022 00:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:13:19.070572
- Title: The Curious Case of Absolute Position Embeddings
- Title(参考訳): 絶対位置埋め込みの奇妙な場合
- Authors: Koustuv Sinha, Amirhossein Kazemnejad, Siva Reddy, Joelle Pineau,
Dieuwke Hupkes, Adina Williams
- Abstract要約: トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこのような情報を捉えることができる範囲は研究されていない。
我々は, APE を用いて訓練されたモデルが, 位置情報をシフトした文を入力した時点で, 位置情報に基づいて過度に訓練されていることを観察した。
- 参考スコア(独自算出の注目度): 65.13827063579728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer language models encode the notion of word order using positional
information. Most commonly, this positional information is represented by
absolute position embeddings (APEs), that are learned from the pretraining
data. However, in natural language, it is not absolute position that matters,
but relative position, and the extent to which APEs can capture this type of
information has not been investigated. In this work, we observe that models
trained with APE over-rely on positional information to the point that they
break-down when subjected to sentences with shifted position information.
Specifically, when models are subjected to sentences starting from a non-zero
position (excluding the effect of priming), they exhibit noticeably degraded
performance on zero to full-shot tasks, across a range of model families and
model sizes. Our findings raise questions about the efficacy of APEs to model
the relativity of position information, and invite further introspection on the
sentence and word order processing strategies employed by these models.
- Abstract(参考訳): トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
最も一般的に、この位置情報は、事前学習データから学習される絶対位置埋め込み(APE)によって表現される。
しかし、自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこの種の情報を捉えることができる範囲は研究されていない。
本研究では, apeで訓練されたモデルが, 位置情報を過度に活用し, 位置情報をシフトした文に対してブレークダウンする点を観察する。
特に、モデルがゼロでない位置から始まる文(プライミングの影響を除く)に従えば、モデルファミリやモデルサイズの範囲で、ゼロからフルショットタスクにおいて顕著に劣化したパフォーマンスを示す。
本研究は, 位置情報の相対性度をモデル化するための APE の有効性に関する疑問を提起し, これらのモデルが採用する文や語順処理戦略のさらなるイントロスペクションを招待する。
関連論文リスト
- TPDM: Selectively Removing Positional Information for Zero-shot
Translation via Token-Level Position Disentangle Module [35.524338781859726]
位置情報は、MNMTが復号化のために堅牢な符号化された表現を出力することを妨げる可能性があると仮定されることが多い。
従来のアプローチでは、すべての位置情報を平等に扱うことができず、特定の位置情報を選択的に除去することはできない。
本稿では,有用な位置情報を選択的に保存する方法について検討する。
論文 参考訳(メタデータ) (2023-05-31T13:48:45Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Unveiling The Mask of Position-Information Pattern Through the Mist of
Image Features [75.62755703738696]
近年の研究では、畳み込みニューラルネットワークにおけるパディングが絶対位置情報を符号化していることが示されている。
位置情報の強度を定量化する既存の指標は信頼性が低いままである。
符号化された位置情報を計測(および可視化)するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:57Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - CAPE: Encoding Relative Positions with Continuous Augmented Positional
Embeddings [33.87449556591022]
絶対位置埋め込みのための拡張型アプローチ(CAPE)を提案する。
CAPEは絶対(単純さと速度)と相対的な位置埋め込み(一般化)の両方の利点を保っている。
論文 参考訳(メタデータ) (2021-06-06T14:54:55Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。