論文の概要: Learning Heatmap-Style Jigsaw Puzzles Provides Good Pretraining for 2D
Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2012.07101v1
- Date: Sun, 13 Dec 2020 17:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:43:12.902690
- Title: Learning Heatmap-Style Jigsaw Puzzles Provides Good Pretraining for 2D
Human Pose Estimation
- Title(参考訳): ヒートマップ型ジグソーパズルの学習による2次元ポーズ推定の事前学習
- Authors: Kun Zhang, Rui Wu, Ping Yao, Kai Deng, Ding Li, Renbiao Liu,
Chuanguang Yang, Ge Chen, Min Du, Tianyao Zheng
- Abstract要約: 2次元ポーズ推定ネットワークを事前学習する自己教師あり方式を提案する。
具体的には、Heatmap-Style Jigsaw Puzzles(HSJP)問題をプリテキストタスクとして提案します。
私たちは、さらに大きなImageNetデータセットを導入するのではなく、MS-COCOの人物インスタンスの画像のみを使用します。
HRNetとSimpleBaselineの2つの人気かつ強力な2次元ポーズ推定器を用いて,MS-COCO検証とtest-devデータセットの両方でmAPスコアを評価する。
- 参考スコア(独自算出の注目度): 19.389708889730834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The target of 2D human pose estimation is to locate the keypoints of body
parts from input 2D images. State-of-the-art methods for pose estimation
usually construct pixel-wise heatmaps from keypoints as labels for learning
convolution neural networks, which are usually initialized randomly or using
classification models on ImageNet as their backbones. We note that 2D pose
estimation task is highly dependent on the contextual relationship between
image patches, thus we introduce a self-supervised method for pretraining 2D
pose estimation networks. Specifically, we propose Heatmap-Style Jigsaw Puzzles
(HSJP) problem as our pretext-task, whose target is to learn the location of
each patch from an image composed of shuffled patches. During our pretraining
process, we only use images of person instances in MS-COCO, rather than
introducing extra and much larger ImageNet dataset. A heatmap-style label for
patch location is designed and our learning process is in a non-contrastive
way. The weights learned by HSJP pretext task are utilised as backbones of 2D
human pose estimator, which are then finetuned on MS-COCO human keypoints
dataset. With two popular and strong 2D human pose estimators, HRNet and
SimpleBaseline, we evaluate mAP score on both MS-COCO validation and test-dev
datasets. Our experiments show that downstream pose estimators with our
self-supervised pretraining obtain much better performance than those trained
from scratch, and are comparable to those using ImageNet classification models
as their initial backbones.
- Abstract(参考訳): 2D人間のポーズ推定の目標は、入力された2D画像から身体部分のキーポイントを見つけることである。
ポーズ推定のための最先端の手法は通常、畳み込みニューラルネットワークを学習するためのラベルとしてキーポイントからピクセル単位でヒートマップを構築する。
2次元ポーズ推定タスクは,画像パッチ間の文脈関係に大きく依存するので,2次元ポーズ推定ネットワークを事前学習するための自己教師あり手法を提案する。
具体的には、シャッフルパッチからなる画像から各パッチの位置を学習することを目的とした、私たちのプレテキストタスクとして、Heatmap-Style Jigsaw Puzzles (HSJP) 問題を提案する。
事前トレーニングプロセスでは、さらに大きなImageNetデータセットを導入するのではなく、MS-COCOの人物インスタンスの画像のみを使用します。
パッチ位置のためのヒートマップスタイルのラベルを設計し、学習プロセスは非競合的である。
HSJPプリテキストタスクによって学習された重みは、2次元の人間のポーズ推定器のバックボーンとして利用され、MS-COCO人間のキーポイントデータセットに微調整される。
HRNetとSimpleBaselineの2つの人気かつ強力な2次元ポーズ推定器を用いて,MS-COCO検証とtest-devデータセットでmAPスコアを評価する。
実験の結果,自己教師型事前学習を用いた下流ポーズ推定器は,スクラッチからトレーニングしたモデルよりもはるかに優れた性能が得られることがわかった。
関連論文リスト
- Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation [10.374944534302234]
2次元ポーズからのリフト」法が3Dヒューマンポーズ推定の主流となっている(3DHPE)
画像中のリッチな意味とテクスチャ情報は、より正確な「リフト」手順に寄与する。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
論文 参考訳(メタデータ) (2023-12-25T07:50:58Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Semi-Supervised 2D Human Pose Estimation Driven by Position
Inconsistency Pseudo Label Correction Module [74.80776648785897]
i) 大規模モデルと軽量モデルの間で対話的なトレーニングを行う場合, 大規模モデルのガイドに擬似的な軽量モデルラベルを用いる。
位置整合性擬似ラベル補正モジュール(SSPCM)により駆動される半教師付き2次元ポーズ推定フレームワークを提案する。
学生モデルの性能向上のために,擬似キーポイント認識に基づく半教師付きカットオクルードを用いて,より硬く効果的なサンプルを生成する。
論文 参考訳(メタデータ) (2023-03-08T02:57:05Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - OSOP: A Multi-Stage One Shot Object Pose Estimation Framework [35.89334617258322]
対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。
テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。
The method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets。
論文 参考訳(メタデータ) (2022-03-29T13:12:00Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。