論文の概要: MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications
- arxiv url: http://arxiv.org/abs/2307.00395v1
- Date: Sat, 1 Jul 2023 17:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:14:19.073998
- Title: MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications
- Title(参考訳): MobileViG: モバイルビジョンアプリケーションのためのグラフベースのスパースアテンション
- Authors: Mustafa Munir, William Avery, Radu Marculescu
- Abstract要約: ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
- 参考スコア(独自算出の注目度): 7.2210216531805695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, convolutional neural networks (CNN) and vision transformers
(ViT) have dominated computer vision. However, recently proposed vision graph
neural networks (ViG) provide a new avenue for exploration. Unfortunately, for
mobile applications, ViGs are computationally expensive due to the overhead of
representing images as graph structures. In this work, we propose a new
graph-based sparse attention mechanism, Sparse Vision Graph Attention (SVGA),
that is designed for ViGs running on mobile devices. Additionally, we propose
the first hybrid CNN-GNN architecture for vision tasks on mobile devices,
MobileViG, which uses SVGA. Extensive experiments show that MobileViG beats
existing ViG models and existing mobile CNN and ViT architectures in terms of
accuracy and/or speed on image classification, object detection, and instance
segmentation tasks. Our fastest model, MobileViG-Ti, achieves 75.7% top-1
accuracy on ImageNet-1K with 0.78 ms inference latency on iPhone 13 Mini NPU
(compiled with CoreML), which is faster than MobileNetV2x1.4 (1.02 ms, 74.7%
top-1) and MobileNetV2x1.0 (0.81 ms, 71.8% top-1). Our largest model,
MobileViG-B obtains 82.6% top-1 accuracy with only 2.30 ms latency, which is
faster and more accurate than the similarly sized EfficientFormer-L3 model
(2.77 ms, 82.4%). Our work proves that well designed hybrid CNN-GNN
architectures can be a new avenue of exploration for designing models that are
extremely fast and accurate on mobile devices. Our code is publicly available
at https://github.com/SLDGroup/MobileViG.
- Abstract(参考訳): 従来、畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマー(vit)がコンピュータビジョンを支配してきた。
しかし、最近提案されたビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
残念ながら、モバイルアプリケーションでは、画像をグラフ構造として表現するオーバーヘッドのため、ViGは計算コストがかかる。
そこで本研究では,モバイル端末で動作するViG向けに設計された,グラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
さらに,モバイル端末における視覚タスクのためのCNN-GNNアーキテクチャとして,SVGAを用いたMobileViGを提案する。
大規模な実験により、MobileViGは既存のViGモデルと既存のモバイルCNNおよびViTアーキテクチャを画像分類、オブジェクト検出、インスタンスセグメンテーションタスクの精度および/または速度で上回っていることがわかった。
当社の最速モデルであるMobileViG-Tiは、ImageNet-1Kで75.7%の精度で、iPhone 13 Mini NPU(CoreMLでコンパイルされた)では0.78msの推論遅延を実現しています。
我々の最大のモデルであるMobileViG-Bは2.30ミリ秒のレイテンシで82.6%のトップ1の精度を得ており、同様のサイズのEfficientFormer-L3モデル(2.77ミリ秒、82.4%)よりも高速で精度が高い。
我々の研究は、よく設計されたハイブリッドCNN-GNNアーキテクチャが、モバイルデバイス上で極めて高速で正確なモデルを設計するための新たな道のりであることを証明している。
私たちのコードはhttps://github.com/SLDGroup/MobileViG.comで公開されています。
関連論文リスト
- Scaling Graph Convolutions for Mobile Vision [6.4399181389092]
本稿では、このスケーリング問題を解決するビジョングラフニューラルネットワーク(ViG)モジュールであるMobile Graph Convolution(MGC)を紹介する。
提案するモバイルビジョンアーキテクチャであるMobileViGv2は,MPCを用いて提案手法の有効性を実証する。
私たちの最大のモデルであるMobileViGv2-Bは、83.4%のトップ1の精度で、MobileViG-Bより0.8%高く、2.7msの推論遅延を実現しています。
論文 参考訳(メタデータ) (2024-06-09T16:49:19Z) - GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs [5.895049552752008]
ビジョングラフニューラルネットワーク(ViG)は、コンピュータビジョンの探索のための新しい道を提供する。
ViGsの主なボトルネックは、グラフ構築に使用される非効率なk-アネレスト隣り(KNN)演算である。
KNNよりも効率的な動的軸グラフ構築(DAGC)を設計するための新しい手法を提案する。
また,DAGCを用いた新しいCNN-GNNアーキテクチャであるGreedyViGを提案する。
論文 参考訳(メタデータ) (2024-05-10T23:21:16Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - GhostNetV2: Enhance Cheap Operation with Long-Range Attention [59.65543143580889]
ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーション用の新しいGhostNetV2アーキテクチャを提案する。
提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。
さらに,従来のGhostNetのボトルネックを再考し,DFCに着目した安価な操作による機能拡張を提案する。
論文 参考訳(メタデータ) (2022-11-23T12:16:59Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。