論文の概要: EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers
- arxiv url: http://arxiv.org/abs/2203.03952v1
- Date: Tue, 8 Mar 2022 09:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 22:11:14.126232
- Title: EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers
- Title(参考訳): EdgeFormer: ビジョントランスフォーマーから学ぶことで軽量なConvNetを改善する
- Authors: Haokui Zhang, Wenze Hu, Xiaoyu Wang
- Abstract要約: We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 29.09883780571206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision transformers started to show impressive results which
outperform large convolution based models significantly. However, in the area
of small models for mobile or resource constrained devices, ConvNet still has
its own advantages in both performance and model complexity. We propose
EdgeFormer, a pure ConvNet based backbone model that further strengthens these
advantages by fusing the merits of vision transformers into ConvNets.
Specifically, we propose global circular convolution (GCC) with position
embeddings, a light-weight convolution op which boasts a global receptive field
while producing location sensitive features as in local convolutions. We
combine the GCCs and squeeze-exictation ops to form a meta-former like model
block, which further has the attention mechanism like transformers. The
aforementioned block can be used in plug-and-play manner to replace relevant
blocks in ConvNets or transformers. Experiment results show that the proposed
EdgeFormer achieves better performance than popular light-weight ConvNets and
vision transformer based models in common vision tasks and datasets, while
having fewer parameters and faster inference speed. For classification on
ImageNet-1k, EdgeFormer achieves 78.6% top-1 accuracy with about 5.0 million
parameters, saving 11% parameters and 13% computational cost but gaining 0.2%
higher accuracy and 23% faster inference speed (on ARM based Rockchip RK3288)
compared with MobileViT, and uses only 0.5 times parameters but gaining 2.7%
accuracy compared with DeIT. On MS-COCO object detection and PASCAL VOC
segmentation tasks, EdgeFormer also shows better performance.
- Abstract(参考訳): 近年、視覚トランスフォーマーは大きな畳み込みベースのモデルを大きく上回る印象的な結果を見せ始めた。
しかし、モバイルやリソース制約のあるデバイス向けの小さなモデルでは、convnetはパフォーマンスとモデルの複雑さの両方において独自の利点を持っている。
我々は、視覚トランスフォーマーの利点をconvnetに融合することにより、これらの利点をさらに強化する純粋なconvnetベースのバックボーンモデルedgeformerを提案する。
具体的には,局所的な畳み込みのように位置センシティブな特徴を生成しつつ,グローバル受容場を誇示する軽量畳み込みopであるgcc(global circular convolution)を提案する。
我々は、GCCと圧縮励起OPを組み合わせ、メタフォーマーのようなモデルブロックを形成し、さらにトランスのようなアテンション機構を持つ。
上記のブロックは、コンベネットやトランスフォーマーの関連ブロックを置き換えるために、プラグ・アンド・プレイ方式で使用できる。
実験の結果,提案するエッジフォーマは,一般的な視覚タスクやデータセットにおいて,一般的な軽量コンベネットや視覚トランスフォーマモデルよりも優れた性能を実現し,パラメータも少なく,推論速度も速いことがわかった。
imagenet-1kの分類では、edgeformerは、約5.000のパラメータで78.6%のtop-1精度を達成し、11%のパラメータと13%の計算コストを節約するが、0.2%の精度と23%の高速化(armベースのrockchip rk3288)を達成している。
MS-COCOオブジェクト検出とPASCAL VOCセグメンテーションタスクでは、EdgeFormerのパフォーマンスも向上している。
関連論文リスト
- ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - ConvFormer: Closing the Gap Between CNN and Vision Transformers [12.793893108426742]
複数のカーネルサイズで入力画像の異なるパターンをキャプチャするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
ConvFormerは、様々なタスクにおいて、同様の大きさの視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)より優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T06:45:01Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。