論文の概要: Large Separable Kernel Attention: Rethinking the Large Kernel Attention
Design in CNN
- arxiv url: http://arxiv.org/abs/2309.01439v3
- Date: Fri, 20 Oct 2023 03:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 03:00:40.706259
- Title: Large Separable Kernel Attention: Rethinking the Large Kernel Attention
Design in CNN
- Title(参考訳): 大きな分離可能なカーネルアテンション:CNNにおけるカーネルアテンション設計の再考
- Authors: Kin Wai Lau, Lai-Man Po, Yasar Abbas Ur Rehman
- Abstract要約: LSKAと呼ばれる大分離カーネルアテンションモジュール群を提案する。
LSKAは深さ方向の畳み込み層の2次元畳み込みカーネルを縦1次元カーネルと縦1次元カーネルに分解する。
提案したLSKA設計は,カーネルサイズの増加に伴うテクスチャよりも,オブジェクトの形状に偏りがあることを実証する。
- 参考スコア(独自算出の注目度): 16.751500508997264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Attention Networks (VAN) with Large Kernel Attention (LKA) modules
have been shown to provide remarkable performance, that surpasses Vision
Transformers (ViTs), on a range of vision-based tasks. However, the depth-wise
convolutional layer in these LKA modules incurs a quadratic increase in the
computational and memory footprints with increasing convolutional kernel size.
To mitigate these problems and to enable the use of extremely large
convolutional kernels in the attention modules of VAN, we propose a family of
Large Separable Kernel Attention modules, termed LSKA. LSKA decomposes the 2D
convolutional kernel of the depth-wise convolutional layer into cascaded
horizontal and vertical 1-D kernels. In contrast to the standard LKA design,
the proposed decomposition enables the direct use of the depth-wise
convolutional layer with large kernels in the attention module, without
requiring any extra blocks. We demonstrate that the proposed LSKA module in VAN
can achieve comparable performance with the standard LKA module and incur lower
computational complexity and memory footprints. We also find that the proposed
LSKA design biases the VAN more toward the shape of the object than the texture
with increasing kernel size. Additionally, we benchmark the robustness of the
LKA and LSKA in VAN, ViTs, and the recent ConvNeXt on the five corrupted
versions of the ImageNet dataset that are largely unexplored in the previous
works. Our extensive experimental results show that the proposed LSKA module in
VAN provides a significant reduction in computational complexity and memory
footprints with increasing kernel size while outperforming ViTs, ConvNeXt, and
providing similar performance compared to the LKA module in VAN on object
recognition, object detection, semantic segmentation, and robustness tests.
- Abstract(参考訳): 大型カーネル・アテンション(LKA)モジュールを備えたビジュアル・アテンション・ネットワーク(VAN)は、視覚ベースのタスクにおいてビジョン・トランスフォーマー(ViT)を超える優れたパフォーマンスを提供する。
しかし、これらのlkaモジュールの深さ方向の畳み込み層は畳み込みカーネルサイズの増加とともに計算量とメモリフットプリントの二次的な増加をもたらす。
これらの問題を緩和し,VANのアテンションモジュールにおいて極めて大きな畳み込みカーネルの使用を可能にするため,LSKAと呼ばれる大型分離カーネルアテンションモジュール群を提案する。
lskaは深さ方向の畳み込み層の2次元畳み込み核を水平および垂直な1次元核に分解する。
標準LKA設計とは対照的に、提案した分解により、余分なブロックを必要とせず、大きなカーネルをアテンションモジュールに配置した奥行きの畳み込み層を直接利用できる。
VANのLSKAモジュールは,標準LKAモジュールと同等の性能を示し,計算量やメモリフットプリントの低減を図っている。
また,提案したLSKA設計は,カーネルサイズの増加に伴うテクスチャよりも,VANを物体の形状に偏りがあることが判明した。
さらに、VAN、ViTs、最近のConvNeXtにおけるLKAとLSKAの堅牢さを、以前の研究でほとんど明らかにされていないImageNetデータセットの5つの破損バージョンについてベンチマークする。
広範な実験結果から,vanにおける提案するlskaモジュールは,vitsやconvnextよりもパフォーマンスが向上する一方で,カーネルサイズを増加させ,計算複雑性とメモリフットプリントを大幅に削減し,オブジェクト認識,オブジェクト検出,セマンティックセグメンテーション,ロバストネステストにおいてlkaモジュールと同等の性能を提供することが示された。
関連論文リスト
- Large coordinate kernel attention network for lightweight image super-resolution [5.66935513638074]
マルチスケールの受容場を持つ高効率なビルディングブロックとして,マルチスケールのブループリント分離可能な畳み込み(MBSConv)を提案する。
また,LKAの2次元畳み込みカーネルを水平および垂直の1次元カーネルに分解する大規模座標カーネルアテンション (LCKA) モジュールを提案する。
論文 参考訳(メタデータ) (2024-05-15T14:03:38Z) - Enhancing Retinal Vascular Structure Segmentation in Images With a Novel
Design Two-Path Interactive Fusion Module Model [6.392575673488379]
網膜血管セグメンテーションの精度を高めるために設計されたSwin-Res-Netについて紹介する。
Swin-Res-Netは、パーティショニングに変位のあるシフトウィンドウを使用するSwin Transformerを使用している。
提案したアーキテクチャは,他の公開されたモデルに適合するか,あるいは超越するかという,優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-03-03T01:36:11Z) - Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Incorporating Transformer Designs into Convolutions for Lightweight
Image Super-Resolution [46.32359056424278]
大規模な畳み込みカーネルは畳み込みニューラルネットワークの設計に人気がある。
カーネルのサイズが大きくなるとパラメータの数が2倍に増加し、計算量やメモリの要求も大きくなる。
本稿では,自己注意機構を付加した標準畳み込みを改良した近傍注意モジュールを提案する。
NAモジュールをベースとして,TSRと呼ばれる軽量単一画像超解像(SISR)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T01:32:18Z) - LKD-Net: Large Kernel Convolution Network for Single Image Dehazing [70.46392287128307]
本稿では,LKCB(Large Kernel Convolution Dehaze Block)とCEFN(Channel Enhanced Feed-forward Network)を組み合わせた新しいLKDブロックを提案する。
設計されたDLKCBは、大規模なカーネルの畳み込みを、大量のパラメータや計算オーバーヘッドを伴わずに、より小さな奥行きの畳み込みと奥行きの縮み込みに分割することができる。
我々のLKD-NetはTransformerベースのメソッドであるDehamerを1.79%の#Paramと48.9%のFLOPで劇的に上回っている。
論文 参考訳(メタデータ) (2022-09-05T06:56:48Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral
Super-Resolution [79.97180849505294]
本稿では,HSIの空間分解能を高めるために,CUCaNetというクロスアテンション機構を備えた新しい結合型アンミックスネットワークを提案する。
3つの広く使われているHS-MSデータセットに対して、最先端のHSI-SRモデルと比較実験を行った。
論文 参考訳(メタデータ) (2020-07-10T08:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。