論文の概要: Convolutions and Self-Attention: Re-interpreting Relative Positions in
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2106.05505v1
- Date: Thu, 10 Jun 2021 05:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:26:03.008244
- Title: Convolutions and Self-Attention: Re-interpreting Relative Positions in
Pre-trained Language Models
- Title(参考訳): 畳み込みと自己認識:事前学習言語モデルにおける相対的位置の再解釈
- Authors: Tyler A. Chang, Yifan Xu, Weijian Xu, and Zhuowen Tu
- Abstract要約: 自己アテンション層における相対的な位置埋め込みは、最近提案された動的軽量畳み込みと等価であることを示す。
本稿では,従来の相対的位置埋め込み手法を畳み込みの枠組みで結合した複合的注意法を提案する。
- 参考スコア(独自算出の注目度): 20.90235094798394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we detail the relationship between convolutions and
self-attention in natural language tasks. We show that relative position
embeddings in self-attention layers are equivalent to recently-proposed dynamic
lightweight convolutions, and we consider multiple new ways of integrating
convolutions into Transformer self-attention. Specifically, we propose
composite attention, which unites previous relative position embedding methods
under a convolutional framework. We conduct experiments by training BERT with
composite attention, finding that convolutions consistently improve performance
on multiple downstream tasks, replacing absolute position embeddings. To inform
future work, we present results comparing lightweight convolutions, dynamic
convolutions, and depthwise-separable convolutions in language model
pre-training, considering multiple injection points for convolutions in
self-attention layers.
- Abstract(参考訳): 本稿では,自然言語処理における畳み込みと自己意識の関係を詳述する。
自己着脱層における相対的位置埋め込みは,最近提案されている動的軽量畳み込みと等価であり,畳み込みをトランスフォーマー自己着脱と統合する複数の新しい方法を検討する。
具体的には,畳み込みの枠組みで従来の相対位置埋め込み法を結合した複合注意法を提案する。
我々は、BERTを複合的な注意で訓練することで実験を行い、畳み込みが複数の下流タスクの性能を継続的に改善し、絶対位置埋め込みを置き換えることを発見した。
本研究は, 言語モデル事前学習において, 軽量な畳み込み, 動的畳み込み, 深度的に分離可能な畳み込みを比較し, 自己アテンション層における畳み込みに対する複数の注入点を考慮した結果を示す。
関連論文リスト
- DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Contrastively Disentangled Sequential Variational Autoencoder [20.75922928324671]
本稿では,C-DSVAE(Contrastively Disentangled Sequential Variational Autoencoder)という新しいシーケンス表現学習手法を提案する。
我々は,静的因子と動的因子の相互情報をペナルティ化しながら,入力と潜伏因子の相互情報を最大化する新しいエビデンスローバウンドを用いる。
実験の結果、C-DSVAEは従来の最先端の手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2021-10-22T23:00:32Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z) - Field Convolutions for Surface CNNs [19.897276088740995]
簡単な観測に基づいてベクトル場に作用する新しい曲面畳み込み演算子を提案する。
この定式化は、散乱演算において内在的な空間畳み込みと平行輸送を組み合わせる。
基本幾何処理タスクにおける標準ベンチマークの最先端結果を得る。
論文 参考訳(メタデータ) (2021-04-08T17:11:14Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。