論文の概要: Improve Transformer Models with Better Relative Position Embeddings
- arxiv url: http://arxiv.org/abs/2009.13658v1
- Date: Mon, 28 Sep 2020 22:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 22:00:11.132075
- Title: Improve Transformer Models with Better Relative Position Embeddings
- Title(参考訳): 相対的な位置埋め込みを改良したトランスフォーマーモデルの改善
- Authors: Zhiheng Huang, Davis Liang, Peng Xu, Bing Xiang
- Abstract要約: トランスフォーマーアーキテクチャは、単語順序の概念を維持するために明示的な位置符号化に依存している。
既存の作業は位置情報を十分に活用していないと我々は主張する。
本稿では,クエリ,キー,相対的な位置埋め込みの相互作用を促進する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 18.59434691153783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures rely on explicit position encodings in order to
preserve a notion of word order. In this paper, we argue that existing work
does not fully utilize position information. For example, the initial proposal
of a sinusoid embedding is fixed and not learnable. In this paper, we first
review absolute position embeddings and existing methods for relative position
embeddings. We then propose new techniques that encourage increased interaction
between query, key and relative position embeddings in the self-attention
mechanism. Our most promising approach is a generalization of the absolute
position embedding, improving results on SQuAD1.1 compared to previous position
embeddings approaches. In addition, we address the inductive property of
whether a position embedding can be robust enough to handle long sequences. We
demonstrate empirically that our relative position embedding method is
reasonably generalized and robust from the inductive perspective. Finally, we
show that our proposed method can be adopted as a near drop-in replacement for
improving the accuracy of large models with a small computational budget.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、語順の概念を保存するために明示的な位置符号化に依存している。
本稿では,既存の作業が位置情報を十分に活用していないことを論じる。
例えば、正弦波埋め込みの最初の提案は固定され、学習できない。
本稿では,まず絶対位置埋め込みと既存の相対位置埋め込み法について検討する。
次に,クエリ,キー,および相対的な位置埋め込み間の相互作用を促進する新しい手法を提案する。
我々の最も有望なアプローチは絶対位置埋め込みの一般化であり、以前の位置埋め込みのアプローチと比較してSQuAD1.1の結果を改善する。
さらに、位置埋め込みが長い列を扱うのに十分な頑健であるかどうかという帰納的性質にも対処する。
我々は,相対的な位置埋め込み法が帰納的観点から合理的に一般化され,堅牢であることを示す。
最後に,提案手法は小型の計算予算で大規模モデルの精度を向上させるため,ほぼドロップインの代替として適用可能であることを示す。
関連論文リスト
- Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - The Curious Case of Absolute Position Embeddings [65.13827063579728]
トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。
自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこのような情報を捉えることができる範囲は研究されていない。
我々は, APE を用いて訓練されたモデルが, 位置情報をシフトした文を入力した時点で, 位置情報に基づいて過度に訓練されていることを観察した。
論文 参考訳(メタデータ) (2022-10-23T00:00:04Z) - Learning Positional Embeddings for Coordinate-MLPs [37.56813817513575]
古典的なグラフ-ラプラシア正規化に基づいて位置埋め込みを学習する汎用フレームワークを開発する。
提案手法は, 既定のランダムフーリエ特性と比較して, 高い安定性で優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-12-21T23:23:33Z) - Multiplicative Position-aware Transformer Models for Language
Understanding [17.476450946279037]
自己アテンションのようなアーキテクチャ改善を活用するトランスフォーマーモデルは、自然言語処理(NLP)タスクにおいて極めてよく機能する。
本稿では,既存の主要な位置埋め込み手法を概説し,その精度を下流NLPタスクで比較する。
また,既存手法と比較して精度が向上する新しい乗法埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-27T04:18:32Z) - CAPE: Encoding Relative Positions with Continuous Augmented Positional
Embeddings [33.87449556591022]
絶対位置埋め込みのための拡張型アプローチ(CAPE)を提案する。
CAPEは絶対(単純さと速度)と相対的な位置埋め込み(一般化)の両方の利点を保っている。
論文 参考訳(メタデータ) (2021-06-06T14:54:55Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z) - TFPose: Direct Human Pose Estimation with Transformers [83.03424247905869]
ポーズ推定タスクを変換器で効果的に解くことができるシーケンス予測問題に定式化します。
我々のフレームワークは単純で直接的であり、ヒートマップに基づくポーズ推定の欠点を回避している。
MS-COCOおよびMPIIデータセットの実験は、この手法が回帰ベースのポーズ推定の最先端を大幅に改善できることを示しています。
論文 参考訳(メタデータ) (2021-03-29T04:18:54Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。