論文の概要: Rethinking Vision Transformers for MobileNet Size and Speed
- arxiv url: http://arxiv.org/abs/2212.08059v1
- Date: Thu, 15 Dec 2022 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:49:22.686195
- Title: Rethinking Vision Transformers for MobileNet Size and Speed
- Title(参考訳): MobileNetサイズとスピードのためのビジョントランスの再考
- Authors: Yanyu Li, Ju Hu, Yang Wen, Georgios Evangelidis, Kamyar Salahi, Yanzhi
Wang, Sergey Tulyakov, Jian Ren
- Abstract要約: 本稿では,低レイテンシ,高パラメータ効率で改良されたスーパーネットを提案する。
適切に設計された視覚変換器は,MobileNetレベルのサイズと速度で高い性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 40.25907299742559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the success of Vision Transformers (ViTs) in computer vision tasks,
recent arts try to optimize the performance and complexity of ViTs to enable
efficient deployment on mobile devices. Multiple approaches are proposed to
accelerate attention mechanism, improve inefficient designs, or incorporate
mobile-friendly lightweight convolutions to form hybrid architectures. However,
ViT and its variants still have higher latency or considerably more parameters
than lightweight CNNs, even true for the years-old MobileNet. In practice,
latency and size are both crucial for efficient deployment on
resource-constraint hardware. In this work, we investigate a central question,
can transformer models run as fast as MobileNet and maintain a similar size? We
revisit the design choices of ViTs and propose an improved supernet with low
latency and high parameter efficiency. We further introduce a fine-grained
joint search strategy that can find efficient architectures by optimizing
latency and number of parameters simultaneously. The proposed models,
EfficientFormerV2, achieve about $4\%$ higher top-1 accuracy than MobileNetV2
and MobileNetV2$\times1.4$ on ImageNet-1K with similar latency and parameters.
We demonstrate that properly designed and optimized vision transformers can
achieve high performance with MobileNet-level size and speed.
- Abstract(参考訳): コンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の成功により、最近の芸術はモバイルデバイスへの効率的なデプロイを可能にするために、ViTのパフォーマンスと複雑さを最適化しようと試みている。
複数のアプローチが注目メカニズムを加速し、非効率な設計を改善したり、モバイルフレンドリーな軽量な畳み込みを組み込んでハイブリッドアーキテクチャを構築する。
しかし、vitとその変種は、軽量cnnよりもレイテンシやパラメータがかなり高いままであり、何年も前のmobilenetにも当てはまる。
実際に、レイテンシとサイズは、リソース制約のあるハードウェアへの効率的なデプロイに不可欠です。
この研究では、トランスフォーマーモデルはMobileNetと同じくらい高速に動作し、同様のサイズを維持することができるのか?
我々はvitの設計選択を再検討し、低レイテンシと高パラメータ効率を備えた改良スーパーネットを提案する。
さらに、レイテンシとパラメータ数を同時に最適化することで、効率的なアーキテクチャを見つけることができる、きめ細かい共同探索戦略を導入する。
提案されたモデルであるEfficientFormerV2は、同様のレイテンシとパラメータを持つImageNet-1K上で、MobileNetV2とMobileNetV2$\times1.4よりも約4\%高いトップ1精度を実現している。
我々は、適切に設計され最適化されたビジョントランスフォーマーが、mobilenetレベルのサイズと速度で高い性能を達成できることを実証する。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-02T16:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。