論文の概要: MobileViTv3: Mobile-Friendly Vision Transformer with Simple and
Effective Fusion of Local, Global and Input Features
- arxiv url: http://arxiv.org/abs/2209.15159v1
- Date: Fri, 30 Sep 2022 01:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:03:19.142265
- Title: MobileViTv3: Mobile-Friendly Vision Transformer with Simple and
Effective Fusion of Local, Global and Input Features
- Title(参考訳): MobileViTv3: ローカル、グローバル、および入力機能をシンプルかつ効果的に融合したモバイルフレンドリーなビジョントランスフォーマー
- Authors: Shakti N. Wadekar and Abhishek Chaurasia
- Abstract要約: MobileViT(MobileViTv1)は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を組み合わせて、モバイルビジョンタスク用の軽量モデルを作成する。
我々は,MobileViTv3-blockを作成するのにシンプルで効果的である融合ブロックの変更を提案する。
The proposed MobileViTv3-block used to create MobileViTv3-XXS, XS and S models outperform MobileViTv1 on ImageNet-1k, ADE20K, COCO, PascalVOC2012 datasets。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: MobileViT (MobileViTv1) combines convolutional neural networks (CNNs) and
vision transformers (ViTs) to create light-weight models for mobile vision
tasks. Though the main MobileViTv1-block helps to achieve competitive
state-of-the-art results, the fusion block inside MobileViTv1-block, creates
scaling challenges and has a complex learning task. We propose changes to the
fusion block that are simple and effective to create MobileViTv3-block, which
addresses the scaling and simplifies the learning task. Our proposed
MobileViTv3-block used to create MobileViTv3-XXS, XS and S models outperform
MobileViTv1 on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets. On
ImageNet-1K, MobileViTv3-XXS and MobileViTv3-XS surpasses MobileViTv1-XXS and
MobileViTv1-XS by 2% and 1.9% respectively. Recently published MobileViTv2
architecture removes fusion block and uses linear complexity transformers to
perform better than MobileViTv1. We add our proposed fusion block to
MobileViTv2 to create MobileViTv3-0.5, 0.75 and 1.0 models. These new models
give better accuracy numbers on ImageNet-1k, ADE20K, COCO and PascalVOC2012
datasets as compared to MobileViTv2. MobileViTv3-0.5 and MobileViTv3-0.75
outperforms MobileViTv2-0.5 and MobileViTv2-0.75 by 2.1% and 1.0% respectively
on ImageNet-1K dataset. For segmentation task, MobileViTv3-1.0 achieves 2.07%
and 1.1% better mIOU compared to MobileViTv2-1.0 on ADE20K dataset and
PascalVOC2012 dataset respectively. Our code and the trained models are
available at: https://github.com/micronDLA/MobileViTv3
- Abstract(参考訳): MobileViT(MobileViTv1)は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を組み合わせて、モバイルビジョンタスク用の軽量モデルを作成する。
メインのMobileViTv1ブロックは競合する最先端の結果を達成するのに役立っているが、MobileViTv1ブロック内の融合ブロックはスケーリングの課題を生み出し、複雑な学習タスクを持つ。
そこで本研究では,モバイルvitv3ブロックの作成に簡便かつ効果的であるfusionブロックの変更を提案し,スケーリングに対処し,学習タスクを単純化する。
提案するmobilevitv3-blockは,imagenet-1k,ade20k,coco,pascalvoc2012データセット上でmobilevitv1よりも優れている。
ImageNet-1Kでは、MobileViTv3-XXSとMobileViTv3-XSがそれぞれ2%、MobileViTv1-XXSが1.9%を上回っている。
先日公開されたMobileViTv2アーキテクチャは、融合ブロックを除去し、線形複雑性トランスフォーマーを使用してMobileViTv1より優れたパフォーマンスを実現している。
提案した融合ブロックをMobileViTv2に追加し、MobileViTv3-0.5、0.75、1.0モデルを作成します。
これらの新しいモデルでは、MobileViTv2と比較して、ImageNet-1k、ADE20K、COCO、PascalVOC2012データセットの精度が向上している。
MobileViTv3-0.5とMobileViTv3-0.75は、ImageNet-1Kデータセットでそれぞれ2.1%、MobileViTv2-0.75を1.0%上回る。
セグメンテーションタスクにおいて、MobileViTv3-1.0は、ADE20KデータセットのMobileViTv2-1.0とPascalVOC2012データセットのそれぞれに対して、2.07%と1.1%のmIOUを達成する。
私たちのコードとトレーニングされたモデルは、https://github.com/microndla/mobilevitv3で利用可能です。
関連論文リスト
- Scaling Graph Convolutions for Mobile Vision [6.4399181389092]
本稿では、このスケーリング問題を解決するビジョングラフニューラルネットワーク(ViG)モジュールであるMobile Graph Convolution(MGC)を紹介する。
提案するモバイルビジョンアーキテクチャであるMobileViGv2は,MPCを用いて提案手法の有効性を実証する。
私たちの最大のモデルであるMobileViGv2-Bは、83.4%のトップ1の精度で、MobileViG-Bより0.8%高く、2.7msの推論遅延を実現しています。
論文 参考訳(メタデータ) (2024-06-09T16:49:19Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T17:49:12Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。