論文の概要: MoCoViT: Mobile Convolutional Vision Transformer
- arxiv url: http://arxiv.org/abs/2205.12635v2
- Date: Thu, 26 May 2022 13:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 11:08:19.314684
- Title: MoCoViT: Mobile Convolutional Vision Transformer
- Title(参考訳): mocovit: 移動畳み込み視覚変換器
- Authors: Hailong Ma, Xin Xia, Xing Wang, Xuefeng Xiao, Jiashi Li, Min Zheng
- Abstract要約: モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
- 参考スコア(独自算出の注目度): 13.233314183471213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer networks have achieved impressive results on a variety
of vision tasks. However, most of them are computationally expensive and not
suitable for real-world mobile applications. In this work, we present Mobile
Convolutional Vision Transformer (MoCoViT), which improves in performance and
efficiency by introducing transformer into mobile convolutional networks to
leverage the benefits of both architectures. Different from recent works on
vision transformer, the mobile transformer block in MoCoViT is carefully
designed for mobile devices and is very lightweight, accomplished through two
primary modifications: the Mobile Self-Attention (MoSA) module and the Mobile
Feed Forward Network (MoFFN). MoSA simplifies the calculation of the attention
map through Branch Sharing scheme while MoFFN serves as a mobile version of MLP
in the transformer, further reducing the computation by a large margin.
Comprehensive experiments verify that our proposed MoCoViT family outperform
state-of-the-art portable CNNs and transformer neural architectures on various
vision tasks. On ImageNet classification, it achieves 74.5% top-1 accuracy at
147M FLOPs, gaining 1.2% over MobileNetV3 with less computations. And on the
COCO object detection task, MoCoViT outperforms GhostNet by 2.1 AP in RetinaNet
framework.
- Abstract(参考訳): 近年、トランスフォーマーネットワークは様々なビジョンタスクで印象的な成果を上げている。
しかし、そのほとんどは計算コストが高く、現実のモバイルアプリケーションには適していない。
本研究では,モバイル畳み込みネットワークにトランスフォーマーを導入することで,両アーキテクチャの利点を生かすことにより,性能と効率を向上させるmobile convolutional vision transformer (mocovit)を提案する。
ビジョントランスフォーマーに関する最近の研究とは異なり、MoCoViTのモバイルトランスフォーマーブロックはモバイルデバイス向けに慎重に設計されており、Mobile Self-Attention (MoSA) モジュールとMobile Feed Forward Network (MoFFN) という2つの主要な修正によって非常に軽量化されている。
MoSAは分岐共有方式によるアテンションマップの計算を単純化し、MoFFNはトランスフォーマーにおけるMLPの移動版として機能し、さらに大きなマージンによる計算を削減した。
包括的な実験により,提案するmocovitファミリーが,様々な視覚タスクにおいて最先端のポータブルcnnおよびトランスフォーマリンアーキテクチャよりも優れていることを確認した。
imagenet分類では、147mのフロップで74.5%のtop-1精度を達成し、少ない計算でmobilenetv3を1.2%上回った。
COCOオブジェクト検出タスクでは、MoCoViTはRetinaNetフレームワークでGhostNetの2.1 APを上回っている。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z) - Mobile-Former: Bridging MobileNet and Transformer [42.60008028063716]
我々はMobileNetとTransformerの並列設計であるMobile-Formerについて述べる。
Mobile-Formerは計算効率が良いだけでなく、より表現力があり、低FLOPでMobileNetV3を上回っている。
論文 参考訳(メタデータ) (2021-08-12T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。