論文の概要: SHaRPose: Sparse High-Resolution Representation for Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2312.10758v1
- Date: Sun, 17 Dec 2023 16:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:48:58.870414
- Title: SHaRPose: Sparse High-Resolution Representation for Human Pose
Estimation
- Title(参考訳): SHaRPose:人間の姿勢推定のためのスパース高分解能表現
- Authors: Xiaoqi An, Lin Zhao, Chen Gong, Nannan Wang, Di Wang, Jian Yang
- Abstract要約: Sparse High- resolution Representations のみを人間の姿勢推定に用いるフレームワーク(SHaRPose)を提案する。
我々のモデルであるSHaRPose-Baseは、検証セット上で77.4 AP(+0.5 AP)、COCOテストデブセット上で76.7 AP(+0.5 AP)を達成し、ViTPose-Baseより1.4Times$速い速度で推論する。
- 参考スコア(独自算出の注目度): 39.936860590417346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution representation is essential for achieving good performance in
human pose estimation models. To obtain such features, existing works utilize
high-resolution input images or fine-grained image tokens. However, this dense
high-resolution representation brings a significant computational burden. In
this paper, we address the following question: "Only sparse human keypoint
locations are detected for human pose estimation, is it really necessary to
describe the whole image in a dense, high-resolution manner?" Based on dynamic
transformer models, we propose a framework that only uses Sparse
High-resolution Representations for human Pose estimation (SHaRPose). In
detail, SHaRPose consists of two stages. At the coarse stage, the relations
between image regions and keypoints are dynamically mined while a coarse
estimation is generated. Then, a quality predictor is applied to decide whether
the coarse estimation results should be refined. At the fine stage, SHaRPose
builds sparse high-resolution representations only on the regions related to
the keypoints and provides refined high-precision human pose estimations.
Extensive experiments demonstrate the outstanding performance of the proposed
method. Specifically, compared to the state-of-the-art method ViTPose, our
model SHaRPose-Base achieves 77.4 AP (+0.5 AP) on the COCO validation set and
76.7 AP (+0.5 AP) on the COCO test-dev set, and infers at a speed of
$1.4\times$ faster than ViTPose-Base.
- Abstract(参考訳): 高分解能表現は人間のポーズ推定モデルにおいて優れた性能を達成するために不可欠である。
このような特徴を得るために、既存の作品は高精細な入力画像やきめ細かい画像トークンを利用する。
しかし、この密集した高解像度表現は大きな計算負荷をもたらす。
本稿では,「人間のポーズ推定のために,人間のキーポイント位置が狭く検出されている場合,画像全体を高精細で高精細な方法で表現する必要があるか?」という疑問に対処する。
動的トランスモデルに基づいて,人間の姿勢推定(SHaRPose)にスパース高解像度表現のみを用いるフレームワークを提案する。
SHaRPoseは2つの段階から構成される。
粗い段階では、粗い推定が行われる間、画像領域とキーポイントの関係を動的にマイニングする。
そして、粗さ推定結果を洗練すべきかを判断するために品質予測器を適用する。
細かい段階では、SHaRPoseはキーポイントに関連する領域のみに細かな高解像度表現を構築し、洗練された高精度な人間のポーズ推定を提供する。
広範な実験により,提案手法の優れた性能を示す。
具体的には、最先端手法であるViTPoseと比較して、我々のモデルであるSHaRPose-Baseは、COCO検証セット上で77.4 AP(+0.5 AP)、COCOテストデブセットで76.7 AP(+0.5 AP)を達成し、ViTPose-Baseより1.4\times$速い速度で推定する。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model [27.849059115252008]
本稿では,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定手法を提案する。
我々のMDPoseは、人間のキーポイントの高次元の関節分布を学習し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-02-17T08:29:33Z) - Towards High Performance One-Stage Human Pose Estimation [13.220521786778544]
Mask RCNNは1つのフレームワークで人物検出とポーズ推定を行うことで効率を大幅に向上させることができる。
本稿では,Mask-RCNNの人間のポーズ推定結果を大きく推し進め,効率性を維持することを目的としている。
論文 参考訳(メタデータ) (2023-01-12T07:02:17Z) - 2D Human Pose Estimation with Explicit Anatomical Keypoints Structure
Constraints [15.124606575017621]
本稿では,解剖学的キーポイント構造制約を明示した新しい2次元ポーズ推定手法を提案する。
提案手法は,既存のボトムアップやトップダウンの人間のポーズ推定手法に組み込むことができる。
提案手法は,既存のボトムアップとトップダウンの人間のポーズ推定手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-12-05T11:01:43Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Super Resolution in Human Pose Estimation: Pixelated Poses to a
Resolution Result? [9.577509224534323]
キーポイント検出時にSRを使用するタイミングを決定するための新しいMask-RCNN手法を提案する。
その結果,低分解能者に対しては,SRが適用されればキーポイント検出性能が向上することがわかった。
そこで我々は,キーポイント検出ステップ中にSRをいつ使用するかを決定するためにセグメンテーション領域しきい値を利用する,新しいMask-RCNNアプローチを導入した。
論文 参考訳(メタデータ) (2021-07-05T16:06:55Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。