論文の概要: MovePose: A High-performance Human Pose Estimation Algorithm on Mobile
and Edge Devices
- arxiv url: http://arxiv.org/abs/2308.09084v1
- Date: Thu, 17 Aug 2023 16:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:53:40.537291
- Title: MovePose: A High-performance Human Pose Estimation Algorithm on Mobile
and Edge Devices
- Title(参考訳): MovePose: モバイルおよびエッジデバイス上での高性能なヒューマンポース推定アルゴリズム
- Authors: Dongyang Yu and Haoyue Zhang and Zhirui Zhou and Wangpeng An and
Yanhong Yang
- Abstract要約: 我々は、モバイルデバイス上でリアルタイムのボディポーズ推定に特化して設計された、軽量な畳み込みニューラルネットワークであるMovePoseを紹介する。
このネットワークは、毎秒11フレームを超えるレートで、各個人に対して17のキーポイントを生成し、フィットネストラッキング、手話解釈、高度な移動体姿勢推定などのリアルタイムアプリケーションに適合する。
- 参考スコア(独自算出の注目度): 2.5874041837241304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MovePose, an optimized lightweight convolutional neural network
designed specifically for real-time body pose estimation on CPU-based mobile
devices. The current solutions do not provide satisfactory accuracy and speed
for human posture estimation, and MovePose addresses this gap. It aims to
maintain real-time performance while improving the accuracy of human posture
estimation for mobile devices. The network produces 17 keypoints for each
individual at a rate exceeding 11 frames per second, making it suitable for
real-time applications such as fitness tracking, sign language interpretation,
and advanced mobile human posture estimation. Our MovePose algorithm has
attained an Mean Average Precision (mAP) score of 67.7 on the COCO
\cite{cocodata} validation dataset. The MovePose algorithm displayed efficiency
with a performance of 69+ frames per second (fps) when run on an Intel
i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps
on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G
processor, the fps reached above 11. To enhance accuracy, we incorporated three
techniques: deconvolution, large kernel convolution, and coordinate
classification methods. Compared to basic upsampling, deconvolution is
trainable, improves model capacity, and enhances the receptive field. Large
kernel convolution strengthens these properties at a decreased computational
cost. In summary, MovePose provides high accuracy and real-time performance,
marking it a potential tool for a variety of applications, including those
focused on mobile-side human posture estimation. The code and models for this
algorithm will be made publicly accessible.
- Abstract(参考訳): 我々は,cpu ベースのモバイルデバイス上でのリアルタイムボディポーズ推定用に設計された,最適化された軽量畳み込みニューラルネットワークである movepose を提案する。
現在のソリューションは人間の姿勢推定に十分な精度とスピードを提供しておらず、MovePoseはこのギャップに対処しています。
モバイルデバイスの姿勢推定精度を向上しつつ、リアルタイムパフォーマンスを維持することを目的としている。
このネットワークは、毎秒11フレームを超えるレートで、各個人に対して17のキーポイントを生成し、フィットネストラッキング、手話解釈、高度な移動体姿勢推定などのリアルタイムアプリケーションに適合する。
我々のMovePoseアルゴリズムはCOCO \cite{cocodata}バリデーションデータセットで平均平均精度(mAP)スコア67.7に達した。
MovePoseアルゴリズムは、Intel i9-10920x CPU上で動作する場合、効率は69フレーム/秒(fps)以上であった。
さらに、NVIDIA RTX3090 GPU上で452以上のfpsのパフォーマンスも向上した。
Snapdragon 8 + 4Gプロセッサを搭載したAndroidスマートフォンでは、fpsは11.7GHz以上に達した。
精度を高めるために,デコンボリューション,大規模カーネル畳み込み,座標分類という3つの手法を取り入れた。
基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能で、モデルのキャパシティが向上し、レセプティブフィールドが強化される。
大きなカーネルの畳み込みは計算コストを下げてこれらの特性を強化する。
要約すると、MovePoseは高精度でリアルタイムのパフォーマンスを提供しており、モバイル側の人間の姿勢推定など、さまざまなアプリケーションにとって潜在的なツールである。
このアルゴリズムのコードとモデルは、公開アクセス可能である。
関連論文リスト
- SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Virtuoso: Video-based Intelligence for real-time tuning on SOCs [24.086595996055074]
Underlying Virtuosoはマルチブランチ実行カーネルで、精度-エネルギー-遅延軸の異なる動作ポイントで実行することができる。
我々は、Faster R-CNN (FRCNN)、YOLO v3、SSD、EfficientDet、SELSA、MEGA、REPP、FastAdapt、およびFRCNN+、YOLO+、SSD+、EfficientDet+を含む15の最先端または広く使用されているプロトコルをベンチマークする。
論文 参考訳(メタデータ) (2021-12-24T14:47:41Z) - Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing [0.0]
このシステムは精度が高く、SOTA HRNet 256x192の94.5%の精度を達成した。
我々のモデルはエンコーダ・デコーダアーキテクチャを採用し、その効率を改善するために注意深く縮小されている。
論文 参考訳(メタデータ) (2021-11-08T01:44:46Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - YOLObile: Real-Time Object Detection on Mobile Devices via
Compression-Compilation Co-Design [38.98949683262209]
本稿では,モバイル端末上でリアルタイムなオブジェクト検出を行う YOLObile フレームワークを提案する。
任意のカーネルサイズに対して新しいブロックパンチプルーニング方式を提案する。
YOLObileフレームワークでは,Samsung Galaxy S20上でGPUを用いて17FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2020-09-12T01:41:08Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。