Fugu-MT 論文翻訳(概要): RepViT: Revisiting Mobile CNN From ViT Perspective

論文の概要: RepViT: Revisiting Mobile CNN From ViT Perspective

arxiv url: http://arxiv.org/abs/2307.09283v7
Date: Thu, 29 Feb 2024 04:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 19:03:22.502569
Title: RepViT: Revisiting Mobile CNN From ViT Perspective
Title（参考訳）: RepViT: ViTの視点からモバイルCNNを再考
Authors: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
Abstract要約: 軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
参考スコア（独自算出の注目度）: 71.94042743317937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency, compared with lightweight Convolutional Neural Networks (CNNs), on resource-constrained mobile devices. Researchers have discovered many structural connections between lightweight ViTs and lightweight CNNs. However, the notable architectural disparities in the block structure, macro, and micro designs between them have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs from ViT perspective and emphasize their promising prospect for mobile devices. Specifically, we incrementally enhance the mobile-friendliness of a standard lightweight CNN, \ie, MobileNetV3, by integrating the efficient architectural designs of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. Notably, on ImageNet, RepViT achieves over 80\% top-1 accuracy with 1.0 ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Besides, when RepViT meets SAM, our RepViT-SAM can achieve nearly 10$\times$ faster inference than the advanced MobileSAM. Codes and models are available at \url{https://github.com/THU-MIG/RepViT}.
Abstract（参考訳）: 近年、軽量ビジョントランスフォーマー(ViTs)は、リソース制約のあるモバイルデバイス上での軽量畳み込みニューラルネットワーク(CNNs)と比較して、パフォーマンスとレイテンシの低下を実証している。研究者は、軽量ViTと軽量CNNの間の多くの構造的接続を発見した。しかしながら、ブロック構造、マクロ、マイクロ設計における顕著なアーキテクチャ上の相違は十分に検討されていない。本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。具体的には、軽量VTの効率的なアーキテクチャ設計を統合することで、標準軽量CNNのモバイルフレンドリ性を徐々に強化する。最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetによると、RepViTは、iPhone 12の1.0ミリ秒のレイテンシで80%以上のトップ1の精度を実現しています。さらに、RepViTがSAMと出会うと、我々のRepViT-SAMは、高度なMobileSAMよりも10$\times$高速な推論を達成できます。コードとモデルは \url{https://github.com/thu-mig/repvit} で利用可能である。

関連論文リスト

RapidNet: Multi-Level Dilated Convolution Based Mobile Backbone [6.4399181389092]
純粋にCNNベースのモバイルバックボーンを開発するために,マルチレベル拡張畳み込みを提案する。実験により,提案モデルは画像分類,オブジェクト検出,インスタンス分割,セマンティックセグメンテーションの精度および/または速度の観点から,最先端(SOTA)移動型CNN,ViT,ViG,ハイブリッドアーキテクチャよりも優れていた。
論文参考訳（メタデータ） (2024-12-14T23:39:03Z)
Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。 CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文参考訳（メタデータ） (2024-07-28T11:52:36Z)
RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文参考訳（メタデータ） (2024-06-23T04:11:12Z)
RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。 MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。 RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文参考訳（メタデータ） (2023-12-10T04:42:56Z)
MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。 ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文参考訳（メタデータ） (2023-07-01T17:49:12Z)
Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文参考訳（メタデータ） (2022-12-15T18:59:12Z)
EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文参考訳（メタデータ） (2022-06-02T17:51:03Z)
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文参考訳（メタデータ） (2022-05-06T18:17:19Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-10-05T17:07:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。