論文の概要: MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer
- arxiv url: http://arxiv.org/abs/2110.02178v1
- Date: Tue, 5 Oct 2021 17:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:26:55.607139
- Title: MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer
- Title(参考訳): MobileViT:軽量、汎用、モバイルフレンドリーなビジョントランス
- Authors: Sachin Mehta and Mohammad Rastegari
- Abstract要約: モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
- 参考スコア(独自算出の注目度): 24.47196590256829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Light-weight convolutional neural networks (CNNs) are the de-facto for mobile
vision tasks. Their spatial inductive biases allow them to learn
representations with fewer parameters across different vision tasks. However,
these networks are spatially local. To learn global representations,
self-attention-based vision trans-formers (ViTs) have been adopted. Unlike
CNNs, ViTs are heavy-weight. In this paper, we ask the following question: is
it possible to combine the strengths of CNNs and ViTs to build a light-weight
and low latency network for mobile vision tasks? Towards this end, we introduce
MobileViT, a light-weight and general-purpose vision transformer for mobile
devices. MobileViT presents a different perspective for the global processing
of information with transformers, i.e., transformers as convolutions. Our
results show that MobileViT significantly outperforms CNN- and ViT-based
networks across different tasks and datasets. On the ImageNet-1k dataset,
MobileViT achieves top-1 accuracy of 78.4% with about 6 million parameters,
which is 3.2% and 6.2% more accurate than MobileNetv3 (CNN-based) and DeIT
(ViT-based) for a similar number of parameters. On the MS-COCO object detection
task, MobileViT is 5.7% more accurate than Mo-bileNetv3 for a similar number of
parameters.
- Abstract(参考訳): 軽量畳み込みニューラルネットワーク(CNN)は、モバイルビジョンタスクのデファクトである。
空間的帰納的バイアスにより、異なる視覚タスクでより少ないパラメータで表現を学ぶことができる。
しかし、これらのネットワークは空間的に局所的である。
グローバルな表現を学ぶために、自己注意に基づく視覚トランスフォーマー(ViT)が採用されている。
CNNとは異なり、ViTは重い。
本稿では,モバイルビジョンタスクのための軽量低レイテンシネットワークを構築するために,CNNとViTの強みを組み合わせることは可能か?
この目的に向けて,モバイル機器用の軽量汎用視覚トランスフォーマであるmobilevitを紹介する。
MobileViTは、トランスフォーマー、すなわちコンボリューションとしてのトランスフォーマーによる情報のグローバルな処理に対して異なる視点を示す。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークにおいて,タスクやデータセット間で著しく優れていた。
ImageNet-1kデータセットでは、MobileViTは、約600万のパラメータで78.4%のTop-1精度を達成しており、同じ数のパラメータに対してMobileNetv3(CNNベース)とDeIT(ViTベース)よりも3.2%と6.2%の精度である。
MS-COCOオブジェクト検出タスクでは、MobileViTは同様の数のパラメータに対してMo-bileNetv3よりも5.7%正確である。
関連論文リスト
- Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T17:49:12Z) - Vision Transformers for Mobile Applications: A Short Survey [0.0]
ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを実証している。
大規模なViTをデプロイすることは、多くのモバイルデバイスにとってリソースを消費し、不可能である。
モバイルアプリケーション用に特別に設計されたいくつかのViTを調べ、トランスフォーマーのアーキテクチャを変更するか、CNNとトランスフォーマーの組み合わせを中心に構築されていることを観察する。
論文 参考訳(メタデータ) (2023-05-30T19:12:08Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。