論文の概要: Towards High Performance One-Stage Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2301.04842v1
- Date: Thu, 12 Jan 2023 07:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:26:46.056017
- Title: Towards High Performance One-Stage Human Pose Estimation
- Title(参考訳): 高性能ワンステージヒューマンポース推定に向けて
- Authors: Ling Li, Lin Zhao, Linhao Xu, Jie Xu
- Abstract要約: Mask RCNNは1つのフレームワークで人物検出とポーズ推定を行うことで効率を大幅に向上させることができる。
本稿では,Mask-RCNNの人間のポーズ推定結果を大きく推し進め,効率性を維持することを目的としている。
- 参考スコア(独自算出の注目度): 13.220521786778544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making top-down human pose estimation method present both good performance
and high efficiency is appealing. Mask RCNN can largely improve the efficiency
by conducting person detection and pose estimation in a single framework, as
the features provided by the backbone are able to be shared by the two tasks.
However, the performance is not as good as traditional two-stage methods. In
this paper, we aim to largely advance the human pose estimation results of
Mask-RCNN and still keep the efficiency. Specifically, we make improvements on
the whole process of pose estimation, which contains feature extraction and
keypoint detection. The part of feature extraction is ensured to get enough and
valuable information of pose. Then, we introduce a Global Context Module into
the keypoints detection branch to enlarge the receptive field, as it is crucial
to successful human pose estimation. On the COCO val2017 set, our model using
the ResNet-50 backbone achieves an AP of 68.1, which is 2.6 higher than Mask
RCNN (AP of 65.5). Compared to the classic two-stage top-down method
SimpleBaseline, our model largely narrows the performance gap (68.1 AP vs. 68.9
AP) with a much faster inference speed (77 ms vs. 168 ms), demonstrating the
effectiveness of the proposed method. Code is available at:
https://github.com/lingl_space/maskrcnn_keypoint_refined.
- Abstract(参考訳): 優れた性能と高効率の両方を示すトップダウンの人格推定手法が魅力的である。
Mask RCNNは、バックボーンが提供する特徴を2つのタスクで共有できるため、単一のフレームワークで人物検出とポーズ推定を行うことで、効率を大幅に改善することができる。
しかし、従来の2段階の手法ほどパフォーマンスは良くない。
本稿では,Mask-RCNNの人間のポーズ推定結果を大きく推し進め,効率性を維持することを目的とする。
具体的には,特徴抽出とキーポイント検出を含むポーズ推定のプロセス全体を改善した。
機能抽出の部分は、十分に価値あるポーズ情報を得ることが保証される。
次に,キーポイント検出ブランチにGlobal Context Moduleを導入し,人間のポーズ推定を成功させるため,受容領域を拡大する。
COCO val2017セットでは、ResNet-50バックボーンを用いたモデルでは、Mask RCNN(APは65.5)よりも2.6倍の68.1のAPを達成した。
従来の2段階トップダウン手法SimpleBaselineと比較して,提案手法の有効性を実証し,より高速な推論速度(77ms vs. 168ms)で性能ギャップ(68.1 AP vs. 68.9 AP)を大幅に狭めている。
コードはhttps://github.com/lingl_space/maskrcnn_keypoint_refined.com/で入手できる。
関連論文リスト
- SHaRPose: Sparse High-Resolution Representation for Human Pose
Estimation [39.936860590417346]
Sparse High- resolution Representations のみを人間の姿勢推定に用いるフレームワーク(SHaRPose)を提案する。
我々のモデルであるSHaRPose-Baseは、検証セット上で77.4 AP(+0.5 AP)、COCOテストデブセット上で76.7 AP(+0.5 AP)を達成し、ViTPose-Baseより1.4Times$速い速度で推論する。
論文 参考訳(メタデータ) (2023-12-17T16:29:16Z) - Effective Whole-body Pose Estimation with Two-stages Distillation [52.92064408970796]
全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
論文 参考訳(メタデータ) (2023-07-29T03:49:28Z) - Rethinking pose estimation in crowds: overcoming the detection
information-bottleneck and ambiguity [46.10812760258666]
個人間の頻繁な相互作用は、ポーズ推定アルゴリズムの基本的な課題である。
ボトムアップ条件付きトップダウンポーズ推定と呼ばれる新しいパイプラインを提案する。
動物と人間のポーズ推定ベンチマークにおけるアプローチの性能と効率を実証する。
論文 参考訳(メタデータ) (2023-06-13T16:14:40Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - PoseRAC: Pose Saliency Transformer for Repetitive Action Counting [56.34379680390869]
冗長なフレームではなく,2つのサレントポーズのみを用いて,各アクションを効率よく表現するPose Saliency Representationを導入する。
また,この表現に基づいて,最先端のパフォーマンスを実現するPoseRACについても紹介する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
論文 参考訳(メタデータ) (2023-03-15T08:51:17Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search [47.30243595690131]
効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
論文 参考訳(メタデータ) (2020-12-13T15:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。