論文の概要: RepViT: Revisiting Mobile CNN From ViT Perspective
- arxiv url: http://arxiv.org/abs/2307.09283v2
- Date: Sun, 23 Jul 2023 13:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 20:07:34.519405
- Title: RepViT: Revisiting Mobile CNN From ViT Perspective
- Title(参考訳): RepViT: ViTの視点からモバイルCNNを再考
- Authors: Ao Wang, Hui Chen, Zijia Lin, Hengjun Pu, Guiguang Ding
- Abstract要約: 軽量ビジョントランスフォーマー(ViT)は、リソース制約のあるモバイルデバイス上での軽量畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンスとレイテンシの低下を実証する。
我々は軽量CNNの効率的な設計を再考し、モバイルデバイスにおけるその可能性を強調する。
我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を漸進的に強化する。
RepViTは、最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。
- 参考スコア(独自算出の注目度): 44.01108988638332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, lightweight Vision Transformers (ViTs) demonstrate superior
performance and lower latency compared with lightweight Convolutional Neural
Networks (CNNs) on resource-constrained mobile devices. This improvement is
usually attributed to the multi-head self-attention module, which enables the
model to learn global representations. However, the architectural disparities
between lightweight ViTs and lightweight CNNs have not been adequately
examined. In this study, we revisit the efficient design of lightweight CNNs
and emphasize their potential for mobile devices. We incrementally enhance the
mobile-friendliness of a standard lightweight CNN, specifically MobileNetV3, by
integrating the efficient architectural choices of lightweight ViTs. This ends
up with a new family of pure lightweight CNNs, namely RepViT. Extensive
experiments show that RepViT outperforms existing state-of-the-art lightweight
ViTs and exhibits favorable latency in various vision tasks. On ImageNet,
RepViT achieves over 80\% top-1 accuracy with nearly 1ms latency on an iPhone
12, which is the first time for a lightweight model, to the best of our
knowledge. Our largest model, RepViT-M3, obtains 81.4\% accuracy with only
1.3ms latency. The code and trained models are available at
\url{https://github.com/jameslahm/RepViT}.
- Abstract(参考訳): 近年、軽量視覚トランスフォーマ(vits)は、リソース制約のあるモバイルデバイスでの軽量畳み込みニューラルネットワーク(cnns)と比較して優れた性能と低レイテンシを示している。
この改善は通常、モデルがグローバル表現を学習できるようにするマルチヘッド自己保持モジュールによるものである。
しかし,軽量VTと軽量CNNのアーキテクチャ格差は十分に検討されていない。
本研究では,軽量CNNの効率的な設計を再考し,モバイルデバイスにおけるその可能性を強調する。
我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を徐々に強化する。
最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。
大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。
ImageNetでは、RepViTは80\%以上のトップ1の精度を達成し、iPhone 12では1ms近いレイテンシを実現しています。
我々の最大のモデルであるRepViT-M3は、1.3msのレイテンシで81.4\%の精度を得る。
コードとトレーニングされたモデルは \url{https://github.com/jameslahm/repvit} で入手できる。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文 参考訳(メタデータ) (2024-06-23T04:11:12Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T17:49:12Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。