論文の概要: Towards High Performance Human Keypoint Detection
- arxiv url: http://arxiv.org/abs/2002.00537v2
- Date: Sun, 23 May 2021 02:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:47:24.819073
- Title: Towards High Performance Human Keypoint Detection
- Title(参考訳): 高性能キーポイント検出に向けて
- Authors: Jing Zhang and Zhe Chen and Dacheng Tao
- Abstract要約: 文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
- 参考スコア(独自算出の注目度): 87.1034745775229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human keypoint detection from a single image is very challenging due to
occlusion, blur, illumination and scale variance. In this paper, we address
this problem from three aspects by devising an efficient network structure,
proposing three effective training strategies, and exploiting four useful
postprocessing techniques. First, we find that context information plays an
important role in reasoning human body configuration and invisible keypoints.
Inspired by this, we propose a cascaded context mixer (CCM), which efficiently
integrates spatial and channel context information and progressively refines
them. Then, to maximize CCM's representation capability, we develop a
hard-negative person detection mining strategy and a joint-training strategy by
exploiting abundant unlabeled data. It enables CCM to learn discriminative
features from massive diverse poses. Third, we present several sub-pixel
refinement techniques for postprocessing keypoint predictions to improve
detection accuracy. Extensive experiments on the MS COCO keypoint detection
benchmark demonstrate the superiority of the proposed method over
representative state-of-the-art (SOTA) methods. Our single model achieves
comparable performance with the winner of the 2018 COCO Keypoint Detection
Challenge. The final ensemble model sets a new SOTA on this benchmark.
- Abstract(参考訳): 一つの画像からの人間のキーポイント検出は、閉塞、ぼやけ、照明、スケールのばらつきのために非常に困難である。
本稿では、効率的なネットワーク構造を考案し、3つの効果的なトレーニング戦略を提案し、4つの有用な後処理技術を活用することで、この問題に対処する。
まず、人体構成や見えないキーポイントを推論する上で、コンテキスト情報が重要な役割を担っていることに気付く。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合し,それらを段階的に洗練するカスケードコンテキストミキサー(CCM)を提案する。
そして, ccmの表現能力を最大化するために, 豊富なラベルなしデータを活用し, 人検出マイニング戦略と共同学習戦略を開発する。
ccmは多様なポーズから識別的特徴を学ぶことができる。
第3に,ポストプロセッシングキーポイント予測のためのサブピクセル補正技術をいくつか提示し,検出精度を向上させる。
MS COCOキーポイント検出ベンチマークの大規模な実験は、提案手法が代表的最先端(SOTA)法よりも優れていることを示す。
我々の単一モデルは、2018年のCOCOキーポイント検出チャレンジの勝者と同等のパフォーマンスを達成する。
最後のアンサンブルモデルは、このベンチマークに新しいSOTAを設定する。
関連論文リスト
- Independently Keypoint Learning for Small Object Semantic Correspondence [7.3866687886529805]
キーポイントバウンディングボックス中心クロッピング法の提案
KBCNetはCSFAモジュールと効率的な4D畳み込みデコーダを備える。
提案手法はSPair-71kデータセットの7.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-04-03T12:21:41Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Revisiting Cephalometric Landmark Detection from the view of Human Pose
Estimation with Lightweight Super-Resolution Head [11.40242574405714]
提案手法は,MMPose として知られるヒューマノイドポーズ推定(HPE)に基づくベンチマークである。
パフォーマンスをさらに向上するために、フレームワーク内にアップスケーリング設計を導入します。
MICCAI CLDetection2023では,3つの指標で1位,残る1つで3位となった。
論文 参考訳(メタデータ) (2023-09-29T11:15:39Z) - MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model [27.849059115252008]
本稿では,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定手法を提案する。
我々のMDPoseは、人間のキーポイントの高次元の関節分布を学習し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-02-17T08:29:33Z) - Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond
Algorithms [31.2529724533643]
この研究は、アルゴリズム以外の3つの未探索視点からの最初の総合的なベンチマーク研究を示す。
31のデータセットの分析では、データサンプルの異なる影響が明らかになっている。
比較的単純なモデルで3DPWテストセットで47.3mmのPA-MPJPEを実現する。
論文 参考訳(メタデータ) (2022-09-21T17:39:53Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。