論文の概要: Is 2D Heatmap Representation Even Necessary for Human Pose Estimation?
- arxiv url: http://arxiv.org/abs/2107.03332v1
- Date: Wed, 7 Jul 2021 16:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:01:19.189082
- Title: Is 2D Heatmap Representation Even Necessary for Human Pose Estimation?
- Title(参考訳): 2次元ヒートマップ表現は人間のポーズ推定にも必要か?
- Authors: Yanjie Li, Sen Yang, Shoukui Zhang, Zhicheng Wang, Wankou Yang,
Shu-Tao Xia, Erjin Zhou
- Abstract要約: キーポイント座標(emphSimDR)のための textbfSimple yet promising textbfDisentangled textbfRepresentation を提案する。
本稿では,キーポイント位置に対する水平座標と垂直座標の表現をアンタングル化することを提案する。
- 参考スコア(独自算出の注目度): 44.313782042852246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 2D heatmap representation has dominated human pose estimation for years
due to its high performance. However, heatmap-based approaches have some
drawbacks: 1) The performance drops dramatically in the low-resolution images,
which are frequently encountered in real-world scenarios. 2) To improve the
localization precision, multiple upsample layers may be needed to recover the
feature map resolution from low to high, which are computationally expensive.
3) Extra coordinate refinement is usually necessary to reduce the quantization
error of downscaled heatmaps. To address these issues, we propose a
\textbf{Sim}ple yet promising \textbf{D}isentangled \textbf{R}epresentation for
keypoint coordinate (\emph{SimDR}), reformulating human keypoint localization
as a task of classification. In detail, we propose to disentangle the
representation of horizontal and vertical coordinates for keypoint location,
leading to a more efficient scheme without extra upsampling and refinement.
Comprehensive experiments conducted over COCO dataset show that the proposed
\emph{heatmap-free} methods outperform \emph{heatmap-based} counterparts in all
tested input resolutions, especially in lower resolutions by a large margin.
Code will be made publicly available at \url{https://github.com/leeyegy/SimDR}.
- Abstract(参考訳): 2次元ヒートマップ表現は、その高い性能のために長年人間のポーズ推定を支配してきた。
しかし、ヒートマップベースのアプローチにはいくつかの欠点がある。 1) 低解像度の画像ではパフォーマンスが劇的に低下し、現実のシナリオでは頻繁に発生する。
2) ローカライズ精度を向上させるためには, 特徴マップの解像度を低値から高値に復元するために複数のアップサンプル層が必要である。
3) ダウンスケールヒートマップの量子化誤差を低減させるためには, 余分な座標補正が必要となる。
これらの問題に対処するために,キーポイント座標 (\emph{simdr}) に対する \textbf{sim}ple \textbf{d}isentangled \textbf{r}epresentation を提案する。
具体的には,キーポイント位置の水平座標と垂直座標の表現を分離し,追加のサンプリングや精細化を必要とせず,より効率的なスキームを実現することを提案する。
COCOデータセット上で実施された総合的な実験により、提案手法は全ての試験された入力解像度、特に大きなマージンによる低解像度において、より優れた性能を示すことが示された。
コードは \url{https://github.com/leeyegy/SimDR} で公開される。
関連論文リスト
- SHaRPose: Sparse High-Resolution Representation for Human Pose
Estimation [39.936860590417346]
Sparse High- resolution Representations のみを人間の姿勢推定に用いるフレームワーク(SHaRPose)を提案する。
我々のモデルであるSHaRPose-Baseは、検証セット上で77.4 AP(+0.5 AP)、COCOテストデブセット上で76.7 AP(+0.5 AP)を達成し、ViTPose-Baseより1.4Times$速い速度で推論する。
論文 参考訳(メタデータ) (2023-12-17T16:29:16Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - Heatmap Regression via Randomized Rounding [105.75014893647538]
本稿では,サブピクセルローカライゼーション問題に対処する簡易かつ効果的な量子化システムを提案する。
提案システムでは,数値座標の分数部をトレーニング中の確率的アプローチを用いて基底真理熱マップに符号化する。
論文 参考訳(メタデータ) (2020-09-01T04:54:22Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z) - Attentive One-Dimensional Heatmap Regression for Facial Landmark
Detection and Tracking [73.35078496883125]
顔のランドマークの局所化のための新しい1次元熱マップ回帰法を提案する。
まず、x座標とy座標の辺分布を表すために、1次元熱マップの2つの群を予測する。
第2に、x と y 座標に存在する固有の空間パターンをモデル化するコアテンション機構が採用されている。
第3に、1次元熱マップ構造に基づいて、画像上のランドマーク検出のための空間パターンを検出する顔ランドマーク検出器を提案する。
論文 参考訳(メタデータ) (2020-04-05T06:51:22Z) - Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation [33.71628590745982]
単眼RGB画像からボトムアップな3次元人物ポーズ推定手法を提案する。
本稿では,この表現のサイズを大幅に削減する,シンプルで効率的な圧縮手法を提案する。
提案手法は,多人・一対一の3次元ポーズ推定データセットを用いた場合と比較して,好適に機能する。
論文 参考訳(メタデータ) (2020-04-01T10:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。