論文の概要: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
- arxiv url: http://arxiv.org/abs/2501.00073v1
- Date: Mon, 30 Dec 2024 03:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:36.186215
- Title: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
- Title(参考訳): 近傍埋め込みの類似性を利用した位置エンコーディングのない因果変換器の位置情報創発
- Authors: Chunsheng Zuo, Pavel Guerzhoy, Michael Guerzhoy,
- Abstract要約: 本研究では、位置情報を明示的な位置符号化を用いることなく、どのように保存できるのかという新たな仮説を提案し、検討する。
近傍の埋め込みは、遠くの埋め込みよりも互いに似ており、変圧器はトークンの位置を再構築することができる。
- 参考スコア(独自算出の注目度): 3.0559252110342703
- License:
- Abstract: Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
- Abstract(参考訳): 因果的注意を持つトランスフォーマーは、位置エンコーディングを使わずに位置情報を必要とするタスクを解くことができる。
本研究では,位置情報を明示的な位置エンコーディングを使わずにどのように保存できるかという新たな仮説を提案し,検討する。
近傍の埋め込みは、遠くの埋め込みよりも互いに似ており、変圧器はトークンの位置を再構築することができる。
このパターンは訓練されたトランスフォーマーモデルとランダムに初期化したトランスフォーマーモデルの両方で発生しうることを示す。
関連論文リスト
- Theoretical Analysis of Hierarchical Language Recognition and Generation by Transformers without Positional Encoding [32.01426831450348]
因果マスキングと開始トークンによってトランスフォーマーは階層構造内の位置情報と深さを計算することができることを示す。
位置エンコーディングのないトランスフォーマーは階層型言語を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-16T09:56:01Z) - Improving Transformers using Faithful Positional Encoding [55.30212768657544]
本稿では,Transformerと呼ばれるニューラルネットワークアーキテクチャのための新しい位置符号化手法を提案する。
標準的な正弦波位置符号化とは違って,本手法では入力シーケンスの位置次数に関する情報が失われないようにしている。
論文 参考訳(メタデータ) (2024-05-15T03:17:30Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Do We Really Need Explicit Position Encodings for Vision Transformers? [29.7662570764424]
入力トークンの局所近傍に条件付き位置符号化方式を提案する。
PEGを用いた新しいモデルは、Visual Transformer (CPVT) と呼ばれ、任意の長さの入力シーケンスを自然に処理できる。
我々は, cpvt が視覚的に類似したアテンションマップとなり, 予め定義された位置符号化よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-02-22T10:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。