論文の概要: The Curious Case of Absolute Position Embeddings
- arxiv url: http://arxiv.org/abs/2210.12574v1
- Date: Sun, 23 Oct 2022 00:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:13:19.070572
- Title: The Curious Case of Absolute Position Embeddings
- Title(参考訳): 絶対位置埋め込みの奇妙な場合
- Authors: Koustuv Sinha, Amirhossein Kazemnejad, Siva Reddy, Joelle Pineau,
Dieuwke Hupkes, Adina Williams
- Abstract要約: トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこのような情報を捉えることができる範囲は研究されていない。
我々は, APE を用いて訓練されたモデルが, 位置情報をシフトした文を入力した時点で, 位置情報に基づいて過度に訓練されていることを観察した。
- 参考スコア(独自算出の注目度): 65.13827063579728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer language models encode the notion of word order using positional
information. Most commonly, this positional information is represented by
absolute position embeddings (APEs), that are learned from the pretraining
data. However, in natural language, it is not absolute position that matters,
but relative position, and the extent to which APEs can capture this type of
information has not been investigated. In this work, we observe that models
trained with APE over-rely on positional information to the point that they
break-down when subjected to sentences with shifted position information.
Specifically, when models are subjected to sentences starting from a non-zero
position (excluding the effect of priming), they exhibit noticeably degraded
performance on zero to full-shot tasks, across a range of model families and
model sizes. Our findings raise questions about the efficacy of APEs to model
the relativity of position information, and invite further introspection on the
sentence and word order processing strategies employed by these models.
- Abstract(参考訳): トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
最も一般的に、この位置情報は、事前学習データから学習される絶対位置埋め込み(APE)によって表現される。
しかし、自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこの種の情報を捉えることができる範囲は研究されていない。
本研究では, apeで訓練されたモデルが, 位置情報を過度に活用し, 位置情報をシフトした文に対してブレークダウンする点を観察する。
特に、モデルがゼロでない位置から始まる文(プライミングの影響を除く)に従えば、モデルファミリやモデルサイズの範囲で、ゼロからフルショットタスクにおいて顕著に劣化したパフォーマンスを示す。
本研究は, 位置情報の相対性度をモデル化するための APE の有効性に関する疑問を提起し, これらのモデルが採用する文や語順処理戦略のさらなるイントロスペクションを招待する。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Mitigate Position Bias in Large Language Models via Scaling a Single Dimension [47.792435921037274]
本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。
さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。
これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T17:55:38Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - CAPE: Encoding Relative Positions with Continuous Augmented Positional
Embeddings [33.87449556591022]
絶対位置埋め込みのための拡張型アプローチ(CAPE)を提案する。
CAPEは絶対(単純さと速度)と相対的な位置埋め込み(一般化)の両方の利点を保っている。
論文 参考訳(メタデータ) (2021-06-06T14:54:55Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。