論文の概要: Effective Whole-body Pose Estimation with Two-stages Distillation
- arxiv url: http://arxiv.org/abs/2307.15880v2
- Date: Fri, 25 Aug 2023 02:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:53:01.081006
- Title: Effective Whole-body Pose Estimation with Two-stages Distillation
- Title(参考訳): 2段蒸留による全体電位推定
- Authors: Zhendong Yang, Ailing Zeng, Chun Yuan, Yu Li
- Abstract要約: 全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
- 参考スコア(独自算出の注目度): 52.92064408970796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body pose estimation localizes the human body, hand, face, and foot
keypoints in an image. This task is challenging due to multi-scale body parts,
fine-grained localization for low-resolution regions, and data scarcity.
Meanwhile, applying a highly efficient and accurate pose estimator to widely
human-centric understanding and generation tasks is urgent. In this work, we
present a two-stage pose \textbf{D}istillation for \textbf{W}hole-body
\textbf{P}ose estimators, named \textbf{DWPose}, to improve their effectiveness
and efficiency. The first-stage distillation designs a weight-decay strategy
while utilizing a teacher's intermediate feature and final logits with both
visible and invisible keypoints to supervise the student from scratch. The
second stage distills the student model itself to further improve performance.
Different from the previous self-knowledge distillation, this stage finetunes
the student's head with only 20% training time as a plug-and-play training
strategy. For data limitations, we explore the UBody dataset that contains
diverse facial expressions and hand gestures for real-life applications.
Comprehensive experiments show the superiority of our proposed simple yet
effective methods. We achieve new state-of-the-art performance on
COCO-WholeBody, significantly boosting the whole-body AP of RTMPose-l from
64.8% to 66.5%, even surpassing RTMPose-x teacher with 65.3% AP. We release a
series of models with different sizes, from tiny to large, for satisfying
various downstream tasks. Our codes and models are available at
https://github.com/IDEA-Research/DWPose.
- Abstract(参考訳): 全身ポーズ推定は、画像内の人体、手、顔、足のキーポイントを局所化する。
この課題は、マルチスケールのボディパーツ、低解像度領域の微粒化ローカライゼーション、データ不足などによって困難である。
一方、人間中心の理解と生成に極めて効率的で正確なポーズ推定器を適用することは急務である。
本研究では,その効果と効率を向上させるために,2段階のポーズ \textbf{d}istillation for \textbf{w}hole-body \textbf{p}ose estimator, \textbf{dwpose} を提案する。
第1段階蒸留は、教師の中間機能と最終ロジットを利用して、目に見えるキーポイントと見えないキーポイントの両方を利用して、学生をスクラッチから監督しながら重量減少戦略を設計する。
第2段階は、生徒モデル自体を蒸留し、パフォーマンスをさらに向上させる。
従来の自己知識蒸留とは異なり、この段階は生徒の頭部を微調整し、プラグアンドプレイの訓練戦略として20%のトレーニング時間しか持たない。
データ制限のために、様々な表情と実生活アプリケーションのための手振りを含むUBodyデータセットを探索する。
総合的な実験により,提案手法の優位性を示した。
RTMPose-lの全身APは64.8%から66.5%に大幅に増加し,65.3%のAPでRTMPose-xの教師を抜いた。
私たちは、さまざまな下流タスクを満たすために、小さなものから大きなものまで、さまざまなサイズのモデルをリリースします。
私たちのコードとモデルはhttps://github.com/idea-research/dwposeで利用可能です。
関連論文リスト
- RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation [9.121372333621538]
全体ポーズ推定は、人体のきめ細かいポーズ情報を予測することを目的としている。
本稿では,RTMW (Real-Time Multi-person Whole-body pose Estimation model) について述べる。
論文 参考訳(メタデータ) (2024-07-11T16:15:47Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Denoising and Selecting Pseudo-Heatmaps for Semi-Supervised Human Pose
Estimation [38.97427474379367]
ラベルのないデータから学習するターゲットとして,信頼度の高い擬似熱マップを生成するための認知スキームを導入する。
評価された学生間の不確実性によって導かれる擬似熱マップから学習対象を選択する。
提案手法は,従来の半教師付きポーズ推定装置よりも優れていた。
論文 参考訳(メタデータ) (2023-09-29T19:17:30Z) - 2D Human Pose Estimation with Explicit Anatomical Keypoints Structure
Constraints [15.124606575017621]
本稿では,解剖学的キーポイント構造制約を明示した新しい2次元ポーズ推定手法を提案する。
提案手法は,既存のボトムアップやトップダウンの人間のポーズ推定手法に組み込むことができる。
提案手法は,既存のボトムアップとトップダウンの人間のポーズ推定手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-12-05T11:01:43Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Knowledge Distillation for 6D Pose Estimation by Keypoint Distribution
Alignment [77.70208382044355]
6次元ポーズ推定のための最初の知識蒸留法を提案する。
我々は,コンパクトな学生ネットワークを観察し,正確な2次元キーポイント位置の予測に苦慮する。
いくつかのベンチマーク実験により, 蒸留法が得られた結果が得られた。
論文 参考訳(メタデータ) (2022-05-30T10:17:17Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Orderly Dual-Teacher Knowledge Distillation for Lightweight Human Pose
Estimation [1.0323063834827415]
そこで我々は,異なる能力を持つ2人の教師からなる,秩序ある二重教師知識蒸留(ODKD)フレームワークを提案する。
両教師をまとめて、知識の吸収性を促進するための秩序ある学習戦略を提案する。
提案するodkdは異なる軽量モデルの性能を大きなマージンで向上させ,hrnet-w16は軽量なポーズ推定のための最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-04-21T08:50:36Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。