論文の概要: Scaling Graph Convolutions for Mobile Vision
- arxiv url: http://arxiv.org/abs/2406.05850v1
- Date: Sun, 9 Jun 2024 16:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:47:48.400087
- Title: Scaling Graph Convolutions for Mobile Vision
- Title(参考訳): モバイルビジョンのためのグラフ畳み込みのスケーリング
- Authors: William Avery, Mustafa Munir, Radu Marculescu,
- Abstract要約: 本稿では、このスケーリング問題を解決するビジョングラフニューラルネットワーク(ViG)モジュールであるMobile Graph Convolution(MGC)を紹介する。
提案するモバイルビジョンアーキテクチャであるMobileViGv2は,MPCを用いて提案手法の有効性を実証する。
私たちの最大のモデルであるMobileViGv2-Bは、83.4%のトップ1の精度で、MobileViG-Bより0.8%高く、2.7msの推論遅延を実現しています。
- 参考スコア(独自算出の注目度): 6.4399181389092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To compete with existing mobile architectures, MobileViG introduces Sparse Vision Graph Attention (SVGA), a fast token-mixing operator based on the principles of GNNs. However, MobileViG scales poorly with model size, falling at most 1% behind models with similar latency. This paper introduces Mobile Graph Convolution (MGC), a new vision graph neural network (ViG) module that solves this scaling problem. Our proposed mobile vision architecture, MobileViGv2, uses MGC to demonstrate the effectiveness of our approach. MGC improves on SVGA by increasing graph sparsity and introducing conditional positional encodings to the graph operation. Our smallest model, MobileViGv2-Ti, achieves a 77.7% top-1 accuracy on ImageNet-1K, 2% higher than MobileViG-Ti, with 0.9 ms inference latency on the iPhone 13 Mini NPU. Our largest model, MobileViGv2-B, achieves an 83.4% top-1 accuracy, 0.8% higher than MobileViG-B, with 2.7 ms inference latency. Besides image classification, we show that MobileViGv2 generalizes well to other tasks. For object detection and instance segmentation on MS COCO 2017, MobileViGv2-M outperforms MobileViG-M by 1.2 $AP^{box}$ and 0.7 $AP^{mask}$, and MobileViGv2-B outperforms MobileViG-B by 1.0 $AP^{box}$ and 0.7 $AP^{mask}$. For semantic segmentation on ADE20K, MobileViGv2-M achieves 42.9% $mIoU$ and MobileViGv2-B achieves 44.3% $mIoU$. Our code can be found at \url{https://github.com/SLDGroup/MobileViGv2}.
- Abstract(参考訳): 既存のモバイルアーキテクチャと競合するために、MobileViGは、GNNの原則に基づいた高速なトークン混合演算子であるSparse Vision Graph Attention (SVGA)を導入した。
しかし、MobileViGはモデルサイズではスケールが悪く、同様のレイテンシを持つモデルよりも1%も遅れている。
本稿では、このスケーリング問題を解決するビジョングラフニューラルネットワーク(ViG)モジュールであるMobile Graph Convolution(MGC)を紹介する。
提案するモバイルビジョンアーキテクチャであるMobileViGv2は,MPCを用いて提案手法の有効性を実証する。
MGCは、グラフの空間性を高め、グラフ操作に条件付き位置エンコーディングを導入することでSVGAを改善する。
私たちの最小モデルであるMobileViGv2-Tiは、ImageNet-1Kで77.7%、MobileViG-Tiより2%高く、iPhone 13 Mini NPUで0.9msの推論遅延を達成した。
私たちの最大のモデルであるMobileViGv2-Bは、83.4%のトップ1の精度で、MobileViG-Bより0.8%高く、2.7msの推論遅延を実現しています。
画像分類の他に、MobileViGv2が他のタスクによく当てはまることを示す。
MS COCO 2017のオブジェクト検出とインスタンスセグメンテーションでは、MobileViGv2-Mは1.2$AP^{box}$と0.7$AP^{mask}$、MobileViGv2-Bは1.0$AP^{box}$と0.7$AP^{mask}$を上回る。
ADE20K上のセマンティックセグメンテーションでは、MobileViGv2-Mは42.9%$mIoU$、MobileViGv2-Bは44.3%$mIoU$となる。
我々のコードは \url{https://github.com/SLDGroup/MobileViGv2} にある。
関連論文リスト
- GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs [5.895049552752008]
ビジョングラフニューラルネットワーク(ViG)は、コンピュータビジョンの探索のための新しい道を提供する。
ViGsの主なボトルネックは、グラフ構築に使用される非効率なk-アネレスト隣り(KNN)演算である。
KNNよりも効率的な動的軸グラフ構築(DAGC)を設計するための新しい手法を提案する。
また,DAGCを用いた新しいCNN-GNNアーキテクチャであるGreedyViGを提案する。
論文 参考訳(メタデータ) (2024-05-10T23:21:16Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications [7.2210216531805695]
ビジョングラフニューラルネットワーク(ViG)は、探索のための新たな道を提供する。
ViGは、画像をグラフ構造として表現するオーバーヘッドのため、計算コストが高い。
そこで本稿では,モバイル端末で動作するVG用に設計された,新たなグラフベースのスパースアテンション機構であるSparse Vision Graph Attention (SVGA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T17:49:12Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - MobileViTv3: Mobile-Friendly Vision Transformer with Simple and
Effective Fusion of Local, Global and Input Features [0.0]
MobileViT(MobileViTv1)は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を組み合わせて、モバイルビジョンタスク用の軽量モデルを作成する。
我々は,MobileViTv3-blockを作成するのにシンプルで効果的である融合ブロックの変更を提案する。
The proposed MobileViTv3-block used to create MobileViTv3-XXS, XS and S models outperform MobileViTv1 on ImageNet-1k, ADE20K, COCO, PascalVOC2012 datasets。
論文 参考訳(メタデータ) (2022-09-30T01:04:10Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。