論文の概要: Contextual Position Encoding: Learning to Count What's Important
- arxiv url: http://arxiv.org/abs/2405.18719v2
- Date: Thu, 30 May 2024 17:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 12:40:32.400038
- Title: Contextual Position Encoding: Learning to Count What's Important
- Title(参考訳): コンテキスト位置エンコーディング: 重要なものを数えることを学ぶ
- Authors: Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 我々は,新しい位置符号化手法であるコンテキスト位置フロップ(CoPE)を提案する。
CoPEは、モデルによって決定された特定のトークンに位置を増すことによって、状況に応じて位置を条件付けることができる。
一般的な位置埋め込みが失敗するFlip-Flopタスクにおいて,CoPEが選択的コピー,カウント,Flip-Flopタスクを解くことができることを示す。
- 参考スコア(独自算出の注目度): 42.038277620194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism is a critical component of Large Language Models (LLMs) that allows tokens in a sequence to interact with each other, but is order-invariant. Incorporating position encoding (PE) makes it possible to address by position, such as attending to the i-th token. However, current PE methods use token counts to derive position, and thus cannot generalize to higher levels of abstraction, such as attending to the i-th sentence. In this paper, we propose a new position encoding method, Contextual Position Encoding (CoPE), that allows positions to be conditioned on context by incrementing position only on certain tokens determined by the model. This allows more general position addressing such as attending to the $i$-th particular word, noun, or sentence. We show that CoPE can solve the selective copy, counting and Flip-Flop tasks where popular position embeddings fail, and improves perplexity on language modeling and coding tasks.
- Abstract(参考訳): 注意機構はLarge Language Models (LLM) の重要なコンポーネントであり、シーケンス内のトークン同士の対話を可能にするが、順序不変である。
PE(Incorporating position encoding)は、i-thトークンへの出席など、位置ごとの対応を可能にする。
しかし、現在のPE法ではトークンカウントを用いて位置を導出しているため、i-th文への出席など、より高度な抽象レベルに一般化することはできない。
本論文では,モデルによって決定される特定のトークンにのみ位置を増設することにより,コンテキスト上で位置を条件付けることのできる新しい位置符号化手法であるコンテキスト位置符号化(CoPE)を提案する。
これにより、$i$-thの特定の単語、名詞、文への出席など、より一般的な位置アドレス付けが可能になる。
一般的な位置埋め込みがフェールした場合,CoPEは選択コピー,カウント,フリップフロップといったタスクを解くことができ,言語モデリングやコーディングタスクの難易度を改善することができることを示す。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation [69.68831888599476]
そこで我々は,バイレベル位置符号化と呼ばれる新しい位置符号化法を開発した。
倫理的分析は、この位置情報の絡み合いが学習をより効果的にすることを示している。
私たちのBiPEは、多種多様なテキストモダリティにおいて、幅広いタスクにわたって、より優れた長さの補間機能を持っています。
論文 参考訳(メタデータ) (2024-01-29T18:59:07Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Relative Position Prediction as Pre-training for Text Encoders [0.0]
位置中心の視点はより一般的で有用であると主張する。
我々は、NLPにおける相対的位置符号化パラダイムを適用し、自己教師付き学習のための相対的ラベルを作成する。
論文 参考訳(メタデータ) (2022-02-02T17:13:31Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。