論文の概要: LKCA: Large Kernel Convolutional Attention
- arxiv url: http://arxiv.org/abs/2401.05738v2
- Date: Mon, 5 Feb 2024 15:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:19:28.974055
- Title: LKCA: Large Kernel Convolutional Attention
- Title(参考訳): LKCA: 大きなカーネルの進化的注意
- Authors: Chenghao Li, Boheng Zeng, Yi Lu, Pengbo Shi, Qingzi Chen, Jirui Liu,
Lingyun Zhu
- Abstract要約: 我々はLKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。
LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせている。
コンボリューションとアテンションの両方の観点から実装されたLKCAが同等の性能を示すことが実験によって確認された。
- 参考スコア(独自算出の注目度): 3.896121436301882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the relationship between attention mechanisms and large kernel
ConvNets in visual transformers and propose a new spatial attention named Large
Kernel Convolutional Attention (LKCA). It simplifies the attention operation by
replacing it with a single large kernel convolution. LKCA combines the
advantages of convolutional neural networks and visual transformers, possessing
a large receptive field, locality, and parameter sharing. We explained the
superiority of LKCA from both convolution and attention perspectives, providing
equivalent code implementations for each view. Experiments confirm that LKCA
implemented from both the convolutional and attention perspectives exhibit
equivalent performance. We extensively experimented with the LKCA variant of
ViT in both classification and segmentation tasks. The experiments demonstrated
that LKCA exhibits competitive performance in visual tasks. Our code will be
made publicly available at https://github.com/CatworldLee/LKCA.
- Abstract(参考訳): 視覚変換器における注意機構と大カーネルConvNetの関係を再検討し,LKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。
単一の大きなカーネル畳み込みに置き換えることで、注意操作を単純化する。
LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせて、大きな受容野、局所性、パラメータ共有を持つ。
我々は、畳み込みと注意の両方の観点からlkcaの優位性を説明し、各ビューに同等のコード実装を提供した。
コンボリューションとアテンションの両方の観点から実装されたLKCAは同等の性能を示した。
分類タスクとセグメンテーションタスクの両方において, LKCA の ViT 変異体を広範囲に実験した。
実験により,LKCAは視覚タスクにおいて競争性能を示すことが示された。
私たちのコードはhttps://github.com/CatworldLee/LKCAで公開されます。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。
Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文 参考訳(メタデータ) (2024-07-08T04:08:35Z) - Rethinking Local Perception in Lightweight Vision Transformer [63.65115590184169]
本稿では,コンテキスト認識型局所拡張を利用した軽量な視覚変換器であるCloFormerを紹介する。
CloFormer氏は、バニラ畳み込み演算子でよく使用されるグローバル共有ウェイトと、注目されているトークン固有のコンテキスト認識ウェイトとの関係について検討している。
提案したAttnConvでは、共有ウェイトを使用してローカル情報を集約し、ローカル機能を強化するために慎重に設計されたコンテキスト対応ウェイトをデプロイする。
論文 参考訳(メタデータ) (2023-03-31T05:25:32Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文 参考訳(メタデータ) (2022-07-28T17:59:02Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z) - Adaptive Attention Span in Computer Vision [5.371337604556311]
言語モデリングのためのトランスフォーマーの最近の進歩は、コンピュータビジョンにおける新しい研究領域を開拓した。
2019年後半に行われた研究では、コンボリューションをローカルな自己認識カーネルに置き換えた場合、オブジェクトの検出と認識の両方のパフォーマンスが大幅に向上した。
ローカルな自己アテンションカーネルを用いたモデルは、畳み込みのみを使用する等価アーキテクチャと比較してパラメータやFLOPSが少ないことも示されている。
論文 参考訳(メタデータ) (2020-04-18T21:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。