論文の概要: EfficientFormer: Vision Transformers at MobileNet Speed
- arxiv url: http://arxiv.org/abs/2206.01191v1
- Date: Thu, 2 Jun 2022 17:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 15:25:51.765750
- Title: EfficientFormer: Vision Transformers at MobileNet Speed
- Title(参考訳): EfficientFormer: MobileNet Speedにおけるビジョントランスフォーマー
- Authors: Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey
Tulyakov, Yanzhi Wang, Jian Ren
- Abstract要約: Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
- 参考スコア(独自算出の注目度): 43.93223983817965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) have shown rapid progress in computer vision tasks,
achieving promising results on various benchmarks. However, due to the massive
number of parameters and model design, e.g., attention mechanism, ViT-based
models are generally times slower than lightweight convolutional networks.
Therefore, the deployment of ViT for real-time applications is particularly
challenging, especially on resource-constrained hardware such as mobile
devices. Recent efforts try to reduce the computation complexity of ViT through
network architecture search or hybrid design with MobileNet block, yet the
inference speed is still unsatisfactory. This leads to an important question:
can transformers run as fast as MobileNet while obtaining high performance? To
answer this, we first revisit the network architecture and operators used in
ViT-based models and identify inefficient designs. Then we introduce a
dimension-consistent pure transformer (without MobileNet blocks) as design
paradigm. Finally, we perform latency-driven slimming to get a series of final
models dubbed EfficientFormer. Extensive experiments show the superiority of
EfficientFormer in performance and speed on mobile devices. Our fastest model,
EfficientFormer-L1, achieves 79.2% top-1 accuracy on ImageNet-1K with only 1.6
ms inference latency on iPhone 12 (compiled with CoreML), which is even a bit
faster than MobileNetV2 (1.7 ms, 71.8% top-1), and our largest model,
EfficientFormer-L7, obtains 83.3% accuracy with only 7.0 ms latency. Our work
proves that properly designed transformers can reach extremely low latency on
mobile devices while maintaining high performance
- Abstract(参考訳): Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
しかし、膨大な数のパラメータとモデル設計(注意機構など)のため、ViTベースのモデルは一般的に軽量な畳み込みネットワークよりも遅い。
したがって、リアルタイムアプリケーションへのViTの展開は、特にモバイルデバイスのようなリソース制約のあるハードウェアにおいて特に困難である。
近年,ネットワークアーキテクチャ検索やMobileNetブロックを用いたハイブリッド設計によるViTの計算複雑性の低減が試みられているが,推論速度はまだ不十分である。
トランスフォーマーはMobileNetと同じくらい高速に動作し、ハイパフォーマンスを実現することができるのか?
そこで我々はまず,ViTベースのモデルで使用されるネットワークアーキテクチャと演算子を再検討し,非効率な設計を同定する。
次に、設計パラダイムとして、次元一貫性のある純粋なトランスフォーマー(mobilenetブロックなし)を導入する。
最後に、遅延駆動スリム化を行い、 efficientformerと呼ばれる一連のファイナルモデルを取得します。
大規模な実験は、モバイルデバイスのパフォーマンスと速度におけるEfficientFormerの優位性を示している。
最も高速なモデルであるEfficientFormer-L1は、iPhone 12(CoreMLでコンパイルされた)で1.6msの遅延でImageNet-1Kで79.2%のTop-1精度を実現し、MobileNetV2 (1.7ms, 71.8%のTop-1)よりさらに高速で、最大のモデルであるEfficientFormer-L7は7.0msのレイテンシで83.3%の精度を得る。
我々の研究は、適切な設計のトランスフォーマーが高性能を維持しながらモバイルデバイス上で極めて低レイテンシに到達できることを証明している。
関連論文リスト
- FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T17:49:12Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。