論文の概要: ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2006.15102v1
- Date: Fri, 26 Jun 2020 17:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:58:00.493513
- Title: ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks
- Title(参考訳): ULSAM:小型畳み込みニューラルネットワークのための超軽量サブスペースアテンションモジュール
- Authors: Rajat Saini, Nandan Kumar Jha, Bedanta Das, Sparsh Mittal, C. Krishna
Mohan
- Abstract要約: Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
- 参考スコア(独自算出の注目度): 4.143032261649983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability of the self-attention mechanism to model the long-range
dependencies has catapulted its deployment in vision models. Unlike convolution
operators, self-attention offers infinite receptive field and enables
compute-efficient modeling of global dependencies. However, the existing
state-of-the-art attention mechanisms incur high compute and/or parameter
overheads, and hence unfit for compact convolutional neural networks (CNNs). In
this work, we propose a simple yet effective "Ultra-Lightweight Subspace
Attention Mechanism" (ULSAM), which infers different attention maps for each
feature map subspace. We argue that leaning separate attention maps for each
feature subspace enables multi-scale and multi-frequency feature
representation, which is more desirable for fine-grained image classification.
Our method of subspace attention is orthogonal and complementary to the
existing state-of-the-arts attention mechanisms used in vision models. ULSAM is
end-to-end trainable and can be deployed as a plug-and-play module in the
pre-existing compact CNNs. Notably, our work is the first attempt that uses a
subspace attention mechanism to increase the efficiency of compact CNNs. To
show the efficacy of ULSAM, we perform experiments with MobileNet-V1 and
MobileNet-V2 as backbone architectures on ImageNet-1K and three fine-grained
image classification datasets. We achieve $\approx$13% and $\approx$25%
reduction in both the FLOPs and parameter counts of MobileNet-V2 with a 0.27%
and more than 1% improvement in top-1 accuracy on the ImageNet-1K and
fine-grained image classification datasets (respectively). Code and trained
models are available at https://github.com/Nandan91/ULSAM.
- Abstract(参考訳): 長距離依存をモデル化する自己認識機構の能力は、ビジョンモデルへの展開を触媒している。
畳み込み演算子とは異なり、セルフアテンションは無限受容場を提供し、グローバル依存の計算効率の高いモデリングを可能にする。
しかし、既存の最先端の注意機構は高い計算量やパラメータのオーバーヘッドをもたらすため、コンパクト畳み込みニューラルネットワーク(cnns)には不向きである。
本研究では,各特徴写像部分空間に対して異なる注意マップを推定する,シンプルで効果的なUltra-Lightweight Subspace Attention Mechanism (ULSAM)を提案する。
特徴部分空間毎に異なる注目マップを傾けることで、よりきめ細かな画像分類に好適なマルチスケール・マルチ周波数特徴表現が可能になると論じる。
本手法は視覚モデルにおける既存の注意機構と直交し補完するものである。
ULSAMはエンドツーエンドのトレーニングが可能で、既存のコンパクトCNNのプラグイン・アンド・プレイモジュールとしてデプロイできる。
特に、我々の研究は、小型CNNの効率を高めるためにサブスペースアテンション機構を用いた最初の試みである。
ULSAMの有効性を示すために,ImageNet-1K上のバックボーンアーキテクチャとしてMobileNet-V1とMobileNet-V2を用いて実験を行った。
我々は、imagenet-1kおよび細粒度画像分類データセットの精度が0.27%以上、top-1精度が1%以上向上したmobilenet-v2のフロップ数とパラメータ数をそれぞれ約13%、約25%削減した。
コードとトレーニングされたモデルはhttps://github.com/Nandan91/ULSAMで入手できる。
関連論文リスト
- PMFSNet: Polarized Multi-scale Feature Self-attention Network For
Lightweight Medical Image Segmentation [6.134314911212846]
現在の最先端の医用画像分割法は精度を優先するが、計算要求の増大とより大きなモデルサイズを犠牲にすることも多い。
計算冗長性を避けつつグローバルな局所特徴処理のバランスをとる新しい医用画像分割モデルPMFSNetを提案する。
長期依存関係をキャプチャするために,アテンション機構に基づいたマルチスケール機能拡張モジュールであるPMFSブロックをプラグインとして組み込んでいる。
論文 参考訳(メタデータ) (2024-01-15T10:26:47Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - An Attention Module for Convolutional Neural Networks [5.333582981327498]
本稿では,AW-畳み込みを開発することで,畳み込みニューラルネットワークのためのアテンションモジュールを提案する。
画像分類とオブジェクト検出タスクのための複数のデータセットの実験により,提案した注目モジュールの有効性が示された。
論文 参考訳(メタデータ) (2021-08-18T15:36:18Z) - DMSANet: Dual Multi Scale Attention Network [0.0]
我々は,最高の性能を達成するだけでなく,既存のモデルに比べてパラメータも少ない新しいアテンションモジュールを提案する。
私たちの注目モジュールは、軽量な性質のため、他の畳み込みニューラルネットワークと容易に統合できます。
論文 参考訳(メタデータ) (2021-06-13T10:31:31Z) - SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [0.0]
この問題に対処するために,効率的なShuffle Attention (SA) モジュールを提案する。
例えば、バックボーンのResNet50に対するSAのパラメータと計算は、それぞれ300対25.56Mと2.76e-3 GFLOPs対4.12 GFLOPである。
論文 参考訳(メタデータ) (2021-01-30T15:23:17Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。