論文の概要: RepViT: Revisiting Mobile CNN From ViT Perspective
- arxiv url: http://arxiv.org/abs/2307.09283v8
- Date: Thu, 14 Mar 2024 08:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 03:02:59.018914
- Title: RepViT: Revisiting Mobile CNN From ViT Perspective
- Title(参考訳): RepViT:モバイルCNNをViTの視点から再考
- Authors: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding,
- Abstract要約: 軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
- 参考スコア(独自算出の注目度): 67.05569159984691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency, compared with lightweight Convolutional Neural Networks (CNNs), on resource-constrained mobile devices. Researchers have discovered many structural connections between lightweight ViTs and lightweight CNNs. However, the notable architectural disparities in the block structure, macro, and micro designs between them have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs from ViT perspective and emphasize their promising prospect for mobile devices. Specifically, we incrementally enhance the mobile-friendliness of a standard lightweight CNN, \ie, MobileNetV3, by integrating the efficient architectural designs of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. Notably, on ImageNet, RepViT achieves over 80\% top-1 accuracy with 1.0 ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Besides, when RepViT meets SAM, our RepViT-SAM can achieve nearly 10$\times$ faster inference than the advanced MobileSAM. Codes and models are available at \url{https://github.com/THU-MIG/RepViT}.
- Abstract(参考訳): 近年、軽量ビジョントランスフォーマー(ViTs)は、リソース制約のあるモバイルデバイス上での軽量畳み込みニューラルネットワーク(CNNs)と比較して、パフォーマンスとレイテンシの低下を実証している。
研究者は、軽量ViTと軽量CNNの間の多くの構造的接続を発見した。
しかし, ブロック構造, マクロ, マイクロデザインの顕著な違いについては, 十分に検討されていない。
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
具体的には、軽量なVTの効率的なアーキテクチャ設計を統合することにより、標準軽量CNNであるMobileNetV3のモバイルフレンドリ性を漸進的に強化する。
最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。
大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。
ImageNetによると、RepViTは、iPhone 12の1.0ミリ秒のレイテンシで80%以上のトップ1の精度を達成しています。
さらに、RepViTがSAMと出会うと、我々のRepViT-SAMは、高度なMobileSAMよりも10$\times$高速な推論を達成できます。
コードとモデルは \url{https://github.com/THU-MIG/RepViT} で公開されている。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文 参考訳(メタデータ) (2024-06-23T04:11:12Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T17:49:12Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。