論文の概要: TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.05525v1
- Date: Tue, 12 Apr 2022 04:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:12:47.641318
- Title: TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation
- Title(参考訳): TopFormer:モバイルセマンティックセグメンテーションのためのToken Pyramid Transformer
- Authors: Wenqiang Zhang, Zilong Huang, Guozhong Luo, Tao Chen, Xinggang Wang,
Wenyu Liu, Gang Yu, Chunhua Shen
- Abstract要約: textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
- 参考スコア(独自算出の注目度): 111.8342799044698
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although vision transformers (ViTs) have achieved great success in computer
vision, the heavy computational cost hampers their applications to dense
prediction tasks such as semantic segmentation on mobile devices. In this
paper, we present a mobile-friendly architecture named \textbf{To}ken
\textbf{P}yramid Vision Trans\textbf{former} (\textbf{TopFormer}). The proposed
\textbf{TopFormer} takes Tokens from various scales as input to produce
scale-aware semantic features, which are then injected into the corresponding
tokens to augment the representation. Experimental results demonstrate that our
method significantly outperforms CNN- and ViT-based networks across several
semantic segmentation datasets and achieves a good trade-off between accuracy
and latency. On the ADE20K dataset, TopFormer achieves 5\% higher accuracy in
mIoU than MobileNetV3 with lower latency on an ARM-based mobile device.
Furthermore, the tiny version of TopFormer achieves real-time inference on an
ARM-based mobile device with competitive results. The code and models are
available at: https://github.com/hustvl/TopFormer
- Abstract(参考訳): 視覚変換器(ViT)はコンピュータビジョンにおいて大きな成功を収めているが、計算コストの重いため、モバイルデバイス上のセマンティックセグメンテーションのような密集した予測タスクに応用される。
本稿では,モバイルフレンドリーなアーキテクチャである \textbf{To}ken \textbf{P}yramid Vision Trans\textbf{former} (\textbf{TopFormer})を提案する。
提案された \textbf{TopFormer} は、様々なスケールから Tokens を入力として、スケール対応のセマンティック機能を生成し、対応するトークンに注入して表現を拡大する。
実験の結果,本手法は複数のセマンティクスセグメンテーションデータセットにおいてcnnおよびvitベースのネットワークを著しく上回っており,精度とレイテンシのトレードオフが良好であることがわかった。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5倍高く、ARMベースのモバイルデバイスではレイテンシが低い。
さらに、TopFormerの小さなバージョンは、ARMベースのモバイルデバイス上で、競合する結果のリアルタイム推論を実現する。
コードとモデルは、https://github.com/hustvl/topformerで利用可能である。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model
on Mobile Devices [4.784867435788648]
PP-MobileSegは、モバイルデバイス上で最先端のパフォーマンスを実現するセマンティックセグメンテーションモデルである。
VIMは最終予測に存在するクラスのみを補間することで、モデルのレイテンシを低減する。
実験の結果,PP-MobileSegは他の手法に比べて精度,モデルサイズ,レイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-11T11:43:10Z) - SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition [29.522565659389183]
本研究では,モバイル視覚認識のための圧縮強化軸変換器 (SeaFormer) を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
論文 参考訳(メタデータ) (2023-01-30T18:34:16Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。