論文の概要: Learning Local-Global Contextual Adaptation for Fully End-to-End
Bottom-Up Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2109.03622v1
- Date: Wed, 8 Sep 2021 13:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 21:01:37.400627
- Title: Learning Local-Global Contextual Adaptation for Fully End-to-End
Bottom-Up Human Pose Estimation
- Title(参考訳): 全エンド・ツー・エンドボトムアップ人間のポーズ推定のための局所的グローバル文脈適応の学習
- Authors: Nan Xue, Tianfu Wu, Zhen Zhang, Gui-Song Xia
- Abstract要約: 本稿では,完全エンドツーエンドかつ高速なボトムアップ人間のポーズ推定のための局所GlObal Contextual Adaptationの学習方法を提案する。
これは、ポーズ推定の不正確さに欠ける概念的に単純な中心オフセットの定式化に基づいている。
COCOのトレーニングモデルでは、私たちのLOGO-CAPは、挑戦的なOCHumanデータセットに対して大きなマージンで、先行技術よりも優れています。
- 参考スコア(独自算出の注目度): 37.63466061201821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a method of learning Local-GlObal Contextual Adaptation
for fully end-to-end and fast bottom-up human Pose estimation, dubbed as
LOGO-CAP. It is built on the conceptually simple center-offset formulation that
lacks inaccuracy for pose estimation. When revisiting the bottom-up human pose
estimation with the thought of "thinking, fast and slow" by D. Kahneman, we
introduce a "slow keypointer" to remedy the lack of sufficient accuracy of the
"fast keypointer". In learning the "slow keypointer", the proposed LOGO-CAP
lifts the initial "fast" keypoints by offset predictions to keypoint expansion
maps (KEMs) to counter their uncertainty in two modules. Firstly, the local
KEMs (e.g., 11x11) are extracted from a low-dimensional feature map. A proposed
convolutional message passing module learns to "re-focus" the local KEMs to the
keypoint attraction maps (KAMs) by accounting for the structured output
prediction nature of human pose estimation, which is directly supervised by the
object keypoint similarity (OKS) loss in training. Secondly, the global KEMs
are extracted, with a sufficiently large region-of-interest (e.g., 97x97), from
the keypoint heatmaps that are computed by a direct map-to-map regression.
Then, a local-global contextual adaptation module is proposed to convolve the
global KEMs using the learned KAMs as the kernels. This convolution can be
understood as the learnable offsets guided deformable and dynamic convolution
in a pose-sensitive way. The proposed method is end-to-end trainable with near
real-time inference speed, obtaining state-of-the-art performance on the COCO
keypoint benchmark for bottom-up human pose estimation. With the COCO trained
model, our LOGO-CAP also outperforms prior arts by a large margin on the
challenging OCHuman dataset.
- Abstract(参考訳): 本稿では,LOGO-CAPと呼ばれる完全エンドツーエンドかつ高速なボトムアップヒトポス推定のための局所言語文脈適応学習法を提案する。
これは、ポーズ推定の不正確さを欠いた概念的に単純な中心オフセット形式に基づいている。
d. kahneman の "thinking, fast and slow" という考え方でボトムアップの人間のポーズ推定を再検討すると、"fast keypointer" の十分な精度の欠如を解消する "slow keypointer" が導入された。
スローキーポインター」の学習において、提案したLOGO-CAPは、キーポイント拡張マップ(KEM)へのオフセット予測により、最初の「高速」キーポイントを引き上げ、2つのモジュールにおける不確実性に対処する。
まず、低次元特徴マップから局所ケム(例えば11x11)を抽出する。
提案した畳み込みメッセージパッシングモジュールは、トレーニング中のオブジェクトキーポイント類似性(OKS)損失によって直接監督される人間のポーズ推定の構造化出力予測特性を考慮し、局所的なKEMをキーポイントアトラクションマップ(KAM)に"再フォーカス"することを学ぶ。
第2に、キーポイントヒートマップから十分に大きな領域(例えば97x97)を抽出し、地図から地図への直接回帰によって計算する。
次に、学習したKAMをカーネルとして、グローバルなKEMを畳み込み、局所的な文脈適応モジュールを提案する。
この畳み込みは、変形可能かつ動的畳み込みをポーズに敏感に導く学習可能なオフセットとして理解することができる。
提案手法は,ボトムアップ人間のポーズ推定のためのCOCOキーポイントベンチマークにおいて,ほぼリアルタイムな推論速度でエンドツーエンドのトレーニングが可能となる。
COCOのトレーニングモデルでは、私たちのLOGO-CAPは、挑戦的なOCHumanデータセットに対して大きなマージンで、先行技術よりも優れています。
関連論文リスト
- A Self-supervised Pressure Map human keypoint Detection Approch:
Optimizing Generalization and Computational Efficiency Across Datasets [13.197904114784967]
本研究では,SPMKD(Self-supervised pressure map keypoint detection)法を提案する。
我々の貢献の中心は、人間のキーポイントを正確に検出するための勾配エンコーダ、効率的な伝播のためのファーザ、人間のキーポイントを再構成された圧力マップに変換するデコーダを統合する軽量Fuser-Decoder(EFD)モデルである。
論文 参考訳(メタデータ) (2024-02-22T02:54:43Z) - CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - 2D Human Pose Estimation with Explicit Anatomical Keypoints Structure
Constraints [15.124606575017621]
本稿では,解剖学的キーポイント構造制約を明示した新しい2次元ポーズ推定手法を提案する。
提案手法は,既存のボトムアップやトップダウンの人間のポーズ推定手法に組み込むことができる。
提案手法は,既存のボトムアップとトップダウンの人間のポーズ推定手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-12-05T11:01:43Z) - Location-free Human Pose Estimation [29.327982113378408]
人間のポーズ推定(HPE)は通常、高性能に到達するために大規模なトレーニングデータを必要とする。
キーポイント位置の監視なしに位置のないフレームワークを提案する。
CAMに基づく弱教師付きオブジェクトローカライゼーションに着想を得た結果,粒度HPEとオブジェクトレベルのローカライゼーションのギャップにより,粗いキーポイント位置がCAMを介して取得可能であることがわかった。
論文 参考訳(メタデータ) (2022-05-25T09:56:37Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - Confidence Adaptive Anytime Pixel-Level Recognition [86.75784498879354]
任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-01T20:01:57Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。