論文の概要: EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications
- arxiv url: http://arxiv.org/abs/2206.10589v1
- Date: Tue, 21 Jun 2022 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:11:01.986950
- Title: EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications
- Title(参考訳): edgenext:モバイルビジョンアプリケーションのためのcnn-transformerアーキテクチャ
- Authors: Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed
Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khan
- Abstract要約: 入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
- 参考スコア(独自算出の注目度): 68.35683849098105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of achieving ever-increasing accuracy, large and complex
neural networks are usually developed. Such models demand high computational
resources and therefore cannot be deployed on edge devices. It is of great
interest to build resource-efficient general purpose networks due to their
usefulness in several application areas. In this work, we strive to effectively
combine the strengths of both CNN and Transformer models and propose a new
efficient hybrid architecture EdgeNeXt. Specifically in EdgeNeXt, we introduce
split depth-wise transpose attention (SDTA) encoder that splits input tensors
into multiple channel groups and utilizes depth-wise convolution along with
self-attention across channel dimensions to implicitly increase the receptive
field and encode multi-scale features. Our extensive experiments on
classification, detection and segmentation tasks, reveal the merits of the
proposed approach, outperforming state-of-the-art methods with comparatively
lower compute requirements. Our EdgeNeXt model with 1.3M parameters achieves
71.2\% top-1 accuracy on ImageNet-1K, outperforming MobileViT with an absolute
gain of 2.2\% with 28\% reduction in FLOPs. Further, our EdgeNeXt model with
5.6M parameters achieves 79.4\% top-1 accuracy on ImageNet-1K. The code and
models are publicly available at https://t.ly/_Vu9.
- Abstract(参考訳): 精度の高まりを追求するため、通常、大規模で複雑なニューラルネットワークが開発されている。
このようなモデルは高い計算資源を必要とするため、エッジデバイスにはデプロイできない。
いくつかのアプリケーション領域で有用であるため、リソース効率の良い汎用ネットワークを構築することは非常に興味深い。
本研究では,cnnモデルとトランスフォーマモデルの両方の強みを効果的に結合し,新しい効率的なハイブリッドアーキテクチャedgenextを提案する。
特にedgenextでは、sdtaエンコーダを導入し、入力テンソルを複数のチャネルグループに分割し、チャネル次元にまたがる自己アテンションとともに深さ方向の畳み込みを利用して、暗黙的に受容場を増加させ、マルチスケールな特徴をエンコードします。
分類,検出,セグメンテーションタスクに関する広範な実験により,提案手法の利点が明らかになり,比較的少ない計算条件で,最先端の手法よりも優れていた。
1.3Mパラメータを持つEdgeNeXtモデルは、ImageNet-1K上で71.2\%のTop-1精度を実現し、絶対ゲイン2.2\%、FLOP28\%でMobileViTを上回った。
さらに、5.6mパラメータを持つedgenextモデルはimagenet-1kで79.4\%top-1精度を達成している。
コードとモデルはhttps://t.ly/_vu9で公開されている。
関連論文リスト
- InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Efficient CNN Architecture Design Guided by Visualization [13.074652653088584]
VGNetG-1.0MPは0.99Mパラメータで67.7%、ImageNet分類データセットで1.14Mパラメータで69.2%である。
我々のVGNetF-1.5MPは64.4%(-3.2%)のトップ1の精度と66.2%(-1.4%)のトップ1の精度でガウスカーネルを追加している。
論文 参考訳(メタデータ) (2022-07-21T06:22:15Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search [47.30243595690131]
効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
論文 参考訳(メタデータ) (2020-12-13T15:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。