論文の概要: Convolution-enhanced Evolving Attention Networks
- arxiv url: http://arxiv.org/abs/2212.08330v1
- Date: Fri, 16 Dec 2022 08:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:11:27.231081
- Title: Convolution-enhanced Evolving Attention Networks
- Title(参考訳): コンボリューション強化型進化型注意ネットワーク
- Authors: Yujing Wang, Yaming Yang, Zhuo Li, Jiangang Bai, Mingliang Zhang,
Xiangtai Li, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong
- Abstract要約: 本稿では,残余畳み込みモジュールの連鎖を通じて,相互関係の進化を直接モデル化する,新規で汎用的なアテンション機構を提案する。
我々の実装はEA-DC-(Evolving Attention-enhanced Dilated Convolutional)変換であり、最先端のモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 41.684265133316096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based neural networks, such as Transformers, have become ubiquitous
in numerous applications, including computer vision, natural language
processing, and time-series analysis. In all kinds of attention networks, the
attention maps are crucial as they encode semantic dependencies between input
tokens. However, most existing attention networks perform modeling or reasoning
based on representations, wherein the attention maps of different layers are
learned separately without explicit interactions. In this paper, we propose a
novel and generic evolving attention mechanism, which directly models the
evolution of inter-token relationships through a chain of residual
convolutional modules. The major motivations are twofold. On the one hand, the
attention maps in different layers share transferable knowledge, thus adding a
residual connection can facilitate the information flow of inter-token
relationships across layers. On the other hand, there is naturally an
evolutionary trend among attention maps at different abstraction levels, so it
is beneficial to exploit a dedicated convolution-based module to capture this
process. Equipped with the proposed mechanism, the convolution-enhanced
evolving attention networks achieve superior performance in various
applications, including time-series representation, natural language
understanding, machine translation, and image classification. Especially on
time-series representation tasks, Evolving Attention-enhanced Dilated
Convolutional (EA-DC-) Transformer outperforms state-of-the-art models
significantly, achieving an average of 17% improvement compared to the best
SOTA. To the best of our knowledge, this is the first work that explicitly
models the layer-wise evolution of attention maps. Our implementation is
available at https://github.com/pkuyym/EvolvingAttention
- Abstract(参考訳): Transformersのような注意に基づくニューラルネットワークは、コンピュータビジョン、自然言語処理、時系列解析など、多くのアプリケーションで普及している。
あらゆる種類の注意ネットワークにおいて、アテンションマップは入力トークン間のセマンティックな依存関係を符号化する上で重要である。
しかし、既存のアテンションネットワークの多くは表現に基づくモデリングや推論を行い、各レイヤのアテンションマップは明示的な相互作用なしに別々に学習される。
本稿では,残余畳み込みモジュールの連鎖を通じて,相互関係の進化を直接モデル化する,新規で汎用的な注意機構を提案する。
主な動機は2つある。
一方で、異なる層内のアテンションマップは、転送可能な知識を共有しているため、残りの接続を追加することで、層間の相互関係の情報フローが容易になる。
一方,様々な抽象レベルで注目度マップが進化する傾向が自然にみられるため,専用畳み込み型モジュールを活用してこのプロセスをキャプチャすることは有益である。
提案手法を組み込んだ畳み込み型アテンションネットワークは,時系列表現,自然言語理解,機械翻訳,画像分類など,様々なアプリケーションにおいて優れた性能を実現する。
特に時系列表現タスクでは、EA-DC-(Evolving Attention-enhanced Dilated Convolutional)変換器は最先端モデルよりも優れており、最高のSOTAに比べて平均17%改善されている。
私たちの知る限りでは、注意マップのレイヤーワイド進化を明示的にモデル化する最初の作品です。
私たちの実装はhttps://github.com/pkuyym/EvolvingAttentionで利用可能です。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Assessing the Impact of Attention and Self-Attention Mechanisms on the
Classification of Skin Lesions [0.0]
注意モジュールと自己注意という,2種類の注意機構に注目した。
注意モジュールは各層入力テンソルの特徴を再重み付けするために使用される。
自己認識(Self-Attention)は、元々自然言語処理の分野で提案されていたもので、入力シーケンス内のすべての項目を関連付けることができる。
論文 参考訳(メタデータ) (2021-12-23T18:02:48Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - GAttANet: Global attention agreement for convolutional neural networks [0.0]
自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、視覚でも最近効率的であることが証明された。
本稿では,標準畳み込みネットワークの性能を向上できる簡易な注意システムによる実験について報告する。
脳にインスパイアされた様々な畳み込みバックボーンのためのグローバルアテンション契約ネットワークの有用性を実証します。
論文 参考訳(メタデータ) (2021-04-12T15:45:10Z) - Evolving Attention with Residual Convolutions [29.305149185821882]
本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
論文 参考訳(メタデータ) (2021-02-20T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。