論文の概要: Rethinking Positional Encoding in Language Pre-training
- arxiv url: http://arxiv.org/abs/2006.15595v4
- Date: Mon, 15 Mar 2021 07:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 01:56:01.232133
- Title: Rethinking Positional Encoding in Language Pre-training
- Title(参考訳): 言語事前学習における位置エンコーディングの再考
- Authors: Guolin Ke, Di He, Tie-Yan Liu
- Abstract要約: 絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
- 参考スコア(独自算出の注目度): 111.2320727291926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the positional encoding methods used in language
pre-training (e.g., BERT) and identify several problems in the existing
formulations. First, we show that in the absolute positional encoding, the
addition operation applied on positional embeddings and word embeddings brings
mixed correlations between the two heterogeneous information resources. It may
bring unnecessary randomness in the attention and further limit the
expressiveness of the model. Second, we question whether treating the position
of the symbol \texttt{[CLS]} the same as other words is a reasonable design,
considering its special role (the representation of the entire sentence) in the
downstream tasks. Motivated from above analysis, we propose a new positional
encoding method called \textbf{T}ransformer with \textbf{U}ntied
\textbf{P}ositional \textbf{E}ncoding (TUPE). In the self-attention module,
TUPE computes the word contextual correlation and positional correlation
separately with different parameterizations and then adds them together. This
design removes the mixed and noisy correlations over heterogeneous embeddings
and offers more expressiveness by using different projection matrices.
Furthermore, TUPE unties the \texttt{[CLS]} symbol from other positions, making
it easier to capture information from all positions. Extensive experiments and
ablation studies on GLUE benchmark demonstrate the effectiveness of the
proposed method. Codes and models are released at
https://github.com/guolinke/TUPE.
- Abstract(参考訳): 本研究では,言語事前学習(例えばBERT)で使用される位置符号化手法について検討し,既存の定式化におけるいくつかの問題を明らかにする。
まず, 絶対位置符号化において, 位置埋め込みと単語埋め込みに適用される加算演算は, 二つの異種情報資源間の混合相関をもたらすことを示す。
注意に不必要なランダム性をもたらし、モデルの表現性をさらに制限する可能性がある。
第二に、記号 \textt{[cls]} の位置を他の単語と同様に扱うことは、下流タスクにおける特別な役割(文全体の表現)を考慮して合理的な設計であるかどうかを問う。
上記の解析から動機づけられた新しい位置符号化法として, \textbf{u}ntied \textbf{p}ositional \textbf{e}ncoding (tupe) を提案する。
自己認識モジュールでは、TUPEは単語の文脈的相関と位置的相関を異なるパラメータ化と別々に計算し、それらを結合する。
この設計は、異種埋め込みに対する混合と雑音の相関を取り除き、異なる射影行列を用いてより表現性を高める。
さらに、TUPEは \texttt{[CLS]} のシンボルを他の位置から切り離し、全ての位置から情報を取得するのを容易にする。
GLUEベンチマークの大規模な実験とアブレーション研究により,提案手法の有効性が示された。
コードとモデルはhttps://github.com/guolinke/TUPEで公開されている。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Automated Feature-Topic Pairing: Aligning Semantic and Embedding Spaces
in Spatial Representation Learning [28.211312371895]
本稿では,特徴トピックペアリング(Feature-topic pairing)という新たな問題を定式化し,PSO(Particle Swarm Optimization)に基づくディープラーニングフレームワークを提案する。
具体的には,1)潜在的埋め込み特徴空間と2)意味的話題空間との間の自動アライメントタスクに問題を定式化する。
PSOに基づく解法を設計し、最適なトピックセットを同時に選択し、選択したトピックに基づいて対応する特徴を学習する。
論文 参考訳(メタデータ) (2021-09-22T21:55:36Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。