論文の概要: MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices
- arxiv url: http://arxiv.org/abs/2308.09084v4
- Date: Wed, 24 Jul 2024 06:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:50:07.399213
- Title: MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices
- Title(参考訳): MovePose: モバイルおよびエッジデバイス上での高性能なヒューマンポース推定アルゴリズム
- Authors: Dongyang Yu, Haoyue Zhang, Ruisheng Zhao, Guoqi Chen, Wangpeng An, Yanhong Yang,
- Abstract要約: MovePoseは、モバイルデバイス上でリアルタイムのボディポーズ推定のために設計された、軽量な畳み込みニューラルネットワークである。
我々のアルゴリズムはCOCOデータ検証データセット上で平均平均精度(mAP)の68.0に達している。
- 参考スコア(独自算出の注目度): 2.276032578305907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MovePose, an optimized lightweight convolutional neural network designed specifically for real-time body pose estimation on CPU-based mobile devices. The current solutions do not provide satisfactory accuracy and speed for human posture estimation, and MovePose addresses this gap. It aims to maintain real-time performance while improving the accuracy of human posture estimation for mobile devices. Our MovePose algorithm has attained an Mean Average Precision (mAP) score of 68.0 on the COCO \cite{cocodata} validation dataset. The MovePose algorithm displayed efficiency with a performance of 69+ frames per second (fps) when run on an Intel i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G processor, the fps reached above 11. To enhance accuracy, we incorporated three techniques: deconvolution, large kernel convolution, and coordinate classification methods. Compared to basic upsampling, deconvolution is trainable, improves model capacity, and enhances the receptive field. Large kernel convolution strengthens these properties at a decreased computational cost. In summary, MovePose provides high accuracy and real-time performance, marking it a potential tool for a variety of applications, including those focused on mobile-side human posture estimation. The code and models for this algorithm will be made publicly accessible.
- Abstract(参考訳): 我々は、CPUベースのモバイルデバイス上でのリアルタイムボディポーズ推定に特化して設計された、軽量畳み込みニューラルネットワークであるMovePoseを紹介する。
現在のソリューションは人間の姿勢推定に十分な精度とスピードを提供しておらず、MovePoseはこのギャップに対処しています。
モバイルデバイスの姿勢推定の精度を向上しつつ、リアルタイムのパフォーマンスを維持することを目的としている。
我々のMovePoseアルゴリズムはCOCO \cite{cocodata}バリデーションデータセットで平均平均精度(mAP)スコアが68.0に達した。
MovePoseアルゴリズムは、Intel i9-10920x CPU上で動作する場合、効率は69フレーム/秒(fps)以上であった。
さらに、NVIDIA RTX3090 GPU上で452以上のfpsのパフォーマンスも向上した。
Snapdragon 8 + 4Gプロセッサを搭載したAndroidスマートフォンでは、fpsは11.7GHz以上に達した。
精度を高めるために,デコンボリューション,大規模カーネルコンボリューション,コーディネート分類という3つの手法を取り入れた。
基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能で、モデルのキャパシティが向上し、受容野が向上する。
大きなカーネルの畳み込みは計算コストを下げてこれらの特性を強化する。
要約すると、MovePoseは高精度でリアルタイムのパフォーマンスを提供しており、モバイル側の人間の姿勢推定など、さまざまなアプリケーションにとって潜在的なツールである。
このアルゴリズムのコードとモデルは一般に公開される。
関連論文リスト
- SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Virtuoso: Video-based Intelligence for real-time tuning on SOCs [24.086595996055074]
Underlying Virtuosoはマルチブランチ実行カーネルで、精度-エネルギー-遅延軸の異なる動作ポイントで実行することができる。
我々は、Faster R-CNN (FRCNN)、YOLO v3、SSD、EfficientDet、SELSA、MEGA、REPP、FastAdapt、およびFRCNN+、YOLO+、SSD+、EfficientDet+を含む15の最先端または広く使用されているプロトコルをベンチマークする。
論文 参考訳(メタデータ) (2021-12-24T14:47:41Z) - Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing [0.0]
このシステムは精度が高く、SOTA HRNet 256x192の94.5%の精度を達成した。
我々のモデルはエンコーダ・デコーダアーキテクチャを採用し、その効率を改善するために注意深く縮小されている。
論文 参考訳(メタデータ) (2021-11-08T01:44:46Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - YOLObile: Real-Time Object Detection on Mobile Devices via
Compression-Compilation Co-Design [38.98949683262209]
本稿では,モバイル端末上でリアルタイムなオブジェクト検出を行う YOLObile フレームワークを提案する。
任意のカーネルサイズに対して新しいブロックパンチプルーニング方式を提案する。
YOLObileフレームワークでは,Samsung Galaxy S20上でGPUを用いて17FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2020-09-12T01:41:08Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。