論文の概要: The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models
- arxiv url: http://arxiv.org/abs/2106.01950v1
- Date: Thu, 3 Jun 2021 15:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:27:06.171473
- Title: The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models
- Title(参考訳): 変圧器に基づく言語モデルにおける翻訳不変自己認識の事例
- Authors: Ulme Wennberg, Gustav Eje Henter
- Abstract要約: 既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
- 参考スコア(独自算出の注目度): 11.148662334602639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanisms for encoding positional information are central for
transformer-based language models. In this paper, we analyze the position
embeddings of existing language models, finding strong evidence of translation
invariance, both for the embeddings themselves and for their effect on
self-attention. The degree of translation invariance increases during training
and correlates positively with model performance. Our findings lead us to
propose translation-invariant self-attention (TISA), which accounts for the
relative position between tokens in an interpretable fashion without needing
conventional position embeddings. Our proposal has several theoretical
advantages over existing position-representation approaches. Experiments show
that it improves on regular ALBERT on GLUE tasks, while only adding orders of
magnitude less positional parameters.
- Abstract(参考訳): 位置情報を符号化するメカニズムはトランスフォーマーベースの言語モデルの中心である。
本稿では,既存の言語モデルの位置埋め込みを解析し,組込み自体と自己意識への影響の両方において,翻訳不変性の強い証拠を見出す。
翻訳不変度はトレーニング中に増加し、モデル性能と正の相関関係を持つ。
この結果から,従来の位置埋め込みを必要とせず,解釈可能な方法でトークン間の相対的な位置を考慮し,翻訳不変な自己アテンション(tisa)を提案する。
本提案は,既存の位置表現アプローチに対して,いくつかの理論的利点がある。
実験では、グルータスクの通常のalbertでの改善が示されているが、位置パラメータは桁違いに小さい。
関連論文リスト
- Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - Multiplicative Position-aware Transformer Models for Language
Understanding [17.476450946279037]
自己アテンションのようなアーキテクチャ改善を活用するトランスフォーマーモデルは、自然言語処理(NLP)タスクにおいて極めてよく機能する。
本稿では,既存の主要な位置埋め込み手法を概説し,その精度を下流NLPタスクで比較する。
また,既存手法と比較して精度が向上する新しい乗法埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-27T04:18:32Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。