論文の概要: Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2205.01271v1
- Date: Tue, 3 May 2022 02:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:25:47.892962
- Title: Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation
- Title(参考訳): Lite Pose: 人間の2次元姿勢推定のための効率的なアーキテクチャ設計
- Authors: Yihan Wang, Muyang Li, Han Cai, Wei-Ming Chen, and Song Han
- Abstract要約: エッジ上でのリアルタイム多人数ポーズ推定のための効率的なアーキテクチャ設計について検討する。
この発見に触発されて、ポーズ推定のための効率的な単一ブランチアーキテクチャLitePoseを設計した。
本稿では,Fusion Deconv Head や Large Kernel Convs など,LitePose のキャパシティ向上のための2つの簡単なアプローチを提案する。
- 参考スコア(独自算出の注目度): 35.765304656180355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pose estimation plays a critical role in human-centered vision applications.
However, it is difficult to deploy state-of-the-art HRNet-based pose estimation
models on resource-constrained edge devices due to the high computational cost
(more than 150 GMACs per frame). In this paper, we study efficient architecture
design for real-time multi-person pose estimation on edge. We reveal that
HRNet's high-resolution branches are redundant for models at the
low-computation region via our gradual shrinking experiments. Removing them
improves both efficiency and performance. Inspired by this finding, we design
LitePose, an efficient single-branch architecture for pose estimation, and
introduce two simple approaches to enhance the capacity of LitePose, including
Fusion Deconv Head and Large Kernel Convs. Fusion Deconv Head removes the
redundancy in high-resolution branches, allowing scale-aware feature fusion
with low overhead. Large Kernel Convs significantly improve the model's
capacity and receptive field while maintaining a low computational cost. With
only 25% computation increment, 7x7 kernels achieve +14.0 mAP better than 3x3
kernels on the CrowdPose dataset. On mobile platforms, LitePose reduces the
latency by up to 5.0x without sacrificing performance, compared with prior
state-of-the-art efficient pose estimation models, pushing the frontier of
real-time multi-person pose estimation on edge. Our code and pre-trained models
are released at https://github.com/mit-han-lab/litepose.
- Abstract(参考訳): ポーズ推定は、人間中心の視覚応用において重要な役割を果たす。
しかし、計算コストが高い(フレーム当たり150GMAC以上)ため、最先端のHRNetベースのポーズ推定モデルをリソース制約エッジデバイスに展開することは困難である。
本稿では,エッジ上でのリアルタイム多人数ポーズ推定のための効率的なアーキテクチャ設計について検討する。
HRNetの高分解能分岐は、段階的に縮小する実験を通して低計算領域のモデルに対して冗長であることを明らかにした。
取り除くことで効率と性能が向上する。
この発見に触発されて、ポーズ推定のための効率的なシングルブランチアーキテクチャであるLitePoseを設計し、Fusion Deconv HeadとLarge Kernel Convsを含むLitePoseのキャパシティを向上させるための2つの簡単なアプローチを導入する。
fusion deconvヘッドは高解像度ブランチの冗長性を取り除き、オーバーヘッドの低いスケールアウェア機能融合を可能にする。
大きなカーネル・コンブは、計算コストを低く保ちながら、モデルの容量と受容領域を大幅に改善した。
25%の計算インクリメントで、7x7カーネルはクラウドポスデータセットの3x3カーネルよりも+14.0のマップを実現できる。
モバイルプラットフォームでは、従来の最先端の効率的なポーズ推定モデルと比較して、LitePoseはパフォーマンスを犠牲にすることなく、レイテンシを最大5.0倍に削減し、リアルタイム多人数ポーズ推定のフロンティアをエッジにプッシュする。
私たちのコードとトレーニング済みモデルはhttps://github.com/mit-han-lab/liteposeでリリースしています。
関連論文リスト
- X-HRNet: Towards Lightweight Human Pose Estimation with Spatially
Unidimensional Self-Attention [63.64944381130373]
特に, 主ポーズ推定法は, 2次元単一ピークヒートマップを用いて人間の関節を推定する。
本稿では,空間的一次元自己認識(SUSA)という軽量で強力な代替手段を,ポイントワイズ(1×1)の畳み込みに導入する。
我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。
論文 参考訳(メタデータ) (2023-10-12T05:33:25Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing [0.0]
このシステムは精度が高く、SOTA HRNet 256x192の94.5%の精度を達成した。
我々のモデルはエンコーダ・デコーダアーキテクチャを採用し、その効率を改善するために注意深く縮小されている。
論文 参考訳(メタデータ) (2021-11-08T01:44:46Z) - EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search [47.30243595690131]
効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
論文 参考訳(メタデータ) (2020-12-13T15:38:38Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - EfficientHRNet: Efficient Scaling for Lightweight High-Resolution
Multi-Person Pose Estimation [2.924868086534434]
EfficientHRNetは、リソース制約のあるデバイス上でリアルタイムに動作可能な、軽量な多人数ポーズ推定装置のファミリーである。
最大のモデルは現在の最先端の4.4%の精度で、モデルのサイズは1/3、出力は1/6である。
最上位のリアルタイムアプローチと比較して、EfficientHRNetは22%の精度向上を実現し、1/3のパワーで同様のFPSを実現している。
論文 参考訳(メタデータ) (2020-07-16T03:27:26Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z) - EfficientPose: Scalable single-person pose estimation [3.325625311163864]
一人称ポーズ推定のための新しい畳み込みニューラルネットワークアーキテクチャであるEfficientPoseを提案する。
我々のトップパフォーマンスモデルは、低複雑さのConvNetを用いて、シングルパーソンMPIIにおける最先端の精度を実現する。
複雑さと効率が低いため、EfficientPoseはメモリフットプリントと計算コストを制限し、エッジデバイス上の現実世界のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-25T16:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。