論文の概要: Evolving Attention with Residual Convolutions
- arxiv url: http://arxiv.org/abs/2102.12895v1
- Date: Sat, 20 Feb 2021 15:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:44:16.199259
- Title: Evolving Attention with Residual Convolutions
- Title(参考訳): 余剰畳み込みを伴う注目の進化
- Authors: Yujing Wang, Yaming Yang, Jiangang Bai, Mingliang Zhang, Jing Bai,
Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong
- Abstract要約: 本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
- 参考スコア(独自算出の注目度): 29.305149185821882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is a ubiquitous model for natural language processing and has
attracted wide attentions in computer vision. The attention maps are
indispensable for a transformer model to encode the dependencies among input
tokens. However, they are learned independently in each layer and sometimes
fail to capture precise patterns. In this paper, we propose a novel and generic
mechanism based on evolving attention to improve the performance of
transformers. On one hand, the attention maps in different layers share common
knowledge, thus the ones in preceding layers can instruct the attention in
succeeding layers through residual connections. On the other hand, low-level
and high-level attentions vary in the level of abstraction, so we adopt
convolutional layers to model the evolutionary process of attention maps. The
proposed evolving attention mechanism achieves significant performance
improvement over various state-of-the-art models for multiple tasks, including
image classification, natural language understanding and machine translation.
- Abstract(参考訳): Transformerは自然言語処理のユビキタスモデルであり、コンピュータビジョンにおいて広く注目を集めている。
入力トークン間の依存関係をエンコードするトランスモデルには,アテンションマップが不可欠である。
しかし、それらは各層で独立して学習され、時には正確なパターンを捉えることができない。
本稿では, 変圧器の性能向上のために, 進化的注意に基づく新しい汎用機構を提案する。
一方、異なる層におけるアテンションマップは共通の知識を共有しており、従って前層のアテンションマップは、残差接続を通じて、後続層のアテンションを指示することができる。
一方、低レベルおよび高レベルの注意は抽象化のレベルによって異なるため、注意マップの進化過程をモデル化するために畳み込み層を採用する。
提案手法は, 画像分類, 自然言語理解, 機械翻訳など, 各種タスクの最先端モデルに対して, 大幅な性能向上を実現する。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Assessing the Impact of Attention and Self-Attention Mechanisms on the
Classification of Skin Lesions [0.0]
注意モジュールと自己注意という,2種類の注意機構に注目した。
注意モジュールは各層入力テンソルの特徴を再重み付けするために使用される。
自己認識(Self-Attention)は、元々自然言語処理の分野で提案されていたもので、入力シーケンス内のすべての項目を関連付けることができる。
論文 参考訳(メタデータ) (2021-12-23T18:02:48Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。