論文の概要: PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model
on Mobile Devices
- arxiv url: http://arxiv.org/abs/2304.05152v1
- Date: Tue, 11 Apr 2023 11:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:14:25.805019
- Title: PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model
on Mobile Devices
- Title(参考訳): PP-MobileSeg: モバイルデバイス上での高速かつ正確なセマンティックセグメンテーションモデル
- Authors: Shiyu Tang, Ting Sun, Juncai Peng, Guowei Chen, Yuying Hao, Manhui
Lin, Zhihong Xiao, Jiangbin You, Yi Liu
- Abstract要約: PP-MobileSegは、モバイルデバイス上で最先端のパフォーマンスを実現するセマンティックセグメンテーションモデルである。
VIMは最終予測に存在するクラスのみを補間することで、モデルのレイテンシを低減する。
実験の結果,PP-MobileSegは他の手法に比べて精度,モデルサイズ,レイテンシのトレードオフが優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.784867435788648
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of transformers in computer vision has led to several attempts to
adapt them for mobile devices, but their performance remains unsatisfactory in
some real-world applications. To address this issue, we propose PP-MobileSeg, a
semantic segmentation model that achieves state-of-the-art performance on
mobile devices. PP-MobileSeg comprises three novel parts: the StrideFormer
backbone, the Aggregated Attention Module (AAM), and the Valid Interpolate
Module (VIM). The four-stage StrideFormer backbone is built with MV3 blocks and
strided SEA attention, and it is able to extract rich semantic and detailed
features with minimal parameter overhead. The AAM first filters the detailed
features through semantic feature ensemble voting and then combines them with
semantic features to enhance the semantic information. Furthermore, we proposed
VIM to upsample the downsampled feature to the resolution of the input image.
It significantly reduces model latency by only interpolating classes present in
the final prediction, which is the most significant contributor to overall
model latency. Extensive experiments show that PP-MobileSeg achieves a superior
tradeoff between accuracy, model size, and latency compared to other methods.
On the ADE20K dataset, PP-MobileSeg achieves 1.57% higher accuracy in mIoU than
SeaFormer-Base with 32.9% fewer parameters and 42.3% faster acceleration on
Qualcomm Snapdragon 855. Source codes are available at
https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーの成功は、それをモバイルデバイスに適用しようとするいくつかの試みにつながったが、現実のアプリケーションでは性能が不十分である。
そこで本研究では,モバイルデバイス上での最先端性能を実現するセマンティックセグメンテーションモデルPP-MobileSegを提案する。
pp-mobileseg は strideformer backbone と aggregated attention module (aam) と valid interpolate module (vim) の3つの新しい部分からなる。
4段のstrideformer backboneはmv3ブロックで構築されており、シーアテンションが強化されている。
AAMはまずセマンティックな特徴アンサンブル投票を通じて詳細な機能をフィルタリングし、セマンティックな情報を強化するためにセマンティックな特徴と組み合わせる。
さらに,入力画像の解像度に見合った特徴をアップサンプリングするためにVIMを提案する。
最終的な予測にあるクラスのみを補間することで、モデルレイテンシを大幅に削減する。
実験の結果,PP-MobileSegは他の手法に比べて精度,モデルサイズ,レイテンシのトレードオフが優れていることがわかった。
ADE20Kデータセットでは、PP-MobileSegはSeaFormer-Baseよりも1.57%精度が高く、パラメータは32.9%少なく、Qualcomm Snapdragon 855では42.3%高速化された。
ソースコードはhttps://github.com/paddlepaddle/paddleseg/tree/release/2.8で入手できる。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - MobileInst: Video Instance Segmentation on the Mobile [39.144494585640714]
MobileInstは、モバイル機器上のビデオインスタンスセグメンテーションのための軽量でモバイルフレンドリーなフレームワークである。
MobileInstは、ビデオインスタンスのセグメンテーションのためのオブジェクトを追跡するために、シンプルだが効果的なカーネル再利用とカーネル関連を利用する。
我々は,MobileInstの優位性を示すため,COCOとYouTube-VISデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-30T17:59:02Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。