論文の概要: EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications
- arxiv url: http://arxiv.org/abs/2206.10589v1
- Date: Tue, 21 Jun 2022 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:11:01.986950
- Title: EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications
- Title(参考訳): edgenext:モバイルビジョンアプリケーションのためのcnn-transformerアーキテクチャ
- Authors: Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed
Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khan
- Abstract要約: 入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
- 参考スコア(独自算出の注目度): 68.35683849098105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of achieving ever-increasing accuracy, large and complex
neural networks are usually developed. Such models demand high computational
resources and therefore cannot be deployed on edge devices. It is of great
interest to build resource-efficient general purpose networks due to their
usefulness in several application areas. In this work, we strive to effectively
combine the strengths of both CNN and Transformer models and propose a new
efficient hybrid architecture EdgeNeXt. Specifically in EdgeNeXt, we introduce
split depth-wise transpose attention (SDTA) encoder that splits input tensors
into multiple channel groups and utilizes depth-wise convolution along with
self-attention across channel dimensions to implicitly increase the receptive
field and encode multi-scale features. Our extensive experiments on
classification, detection and segmentation tasks, reveal the merits of the
proposed approach, outperforming state-of-the-art methods with comparatively
lower compute requirements. Our EdgeNeXt model with 1.3M parameters achieves
71.2\% top-1 accuracy on ImageNet-1K, outperforming MobileViT with an absolute
gain of 2.2\% with 28\% reduction in FLOPs. Further, our EdgeNeXt model with
5.6M parameters achieves 79.4\% top-1 accuracy on ImageNet-1K. The code and
models are publicly available at https://t.ly/_Vu9.
- Abstract(参考訳): 精度の高まりを追求するため、通常、大規模で複雑なニューラルネットワークが開発されている。
このようなモデルは高い計算資源を必要とするため、エッジデバイスにはデプロイできない。
いくつかのアプリケーション領域で有用であるため、リソース効率の良い汎用ネットワークを構築することは非常に興味深い。
本研究では,cnnモデルとトランスフォーマモデルの両方の強みを効果的に結合し,新しい効率的なハイブリッドアーキテクチャedgenextを提案する。
特にedgenextでは、sdtaエンコーダを導入し、入力テンソルを複数のチャネルグループに分割し、チャネル次元にまたがる自己アテンションとともに深さ方向の畳み込みを利用して、暗黙的に受容場を増加させ、マルチスケールな特徴をエンコードします。
分類,検出,セグメンテーションタスクに関する広範な実験により,提案手法の利点が明らかになり,比較的少ない計算条件で,最先端の手法よりも優れていた。
1.3Mパラメータを持つEdgeNeXtモデルは、ImageNet-1K上で71.2\%のTop-1精度を実現し、絶対ゲイン2.2\%、FLOP28\%でMobileViTを上回った。
さらに、5.6mパラメータを持つedgenextモデルはimagenet-1kで79.4\%top-1精度を達成している。
コードとモデルはhttps://t.ly/_vu9で公開されている。
関連論文リスト
- ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Semantic Segmentation in Satellite Hyperspectral Imagery by Deep Learning [54.094272065609815]
本稿では1D-Justo-LiuNetという軽量な1D-CNNモデルを提案する。
1D-Justo-LiuNetは、全てのテストモデルの中で最小のモデルサイズ (4,563 パラメータ) を持つ最大精度 (0.93) を達成する。
論文 参考訳(メタデータ) (2023-10-24T21:57:59Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Efficient CNN Architecture Design Guided by Visualization [13.074652653088584]
VGNetG-1.0MPは0.99Mパラメータで67.7%、ImageNet分類データセットで1.14Mパラメータで69.2%である。
我々のVGNetF-1.5MPは64.4%(-3.2%)のトップ1の精度と66.2%(-1.4%)のトップ1の精度でガウスカーネルを追加している。
論文 参考訳(メタデータ) (2022-07-21T06:22:15Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。