論文の概要: DOPE: Distillation Of Part Experts for whole-body 3D pose estimation in
the wild
- arxiv url: http://arxiv.org/abs/2008.09457v1
- Date: Fri, 21 Aug 2020 12:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:56:53.176427
- Title: DOPE: Distillation Of Part Experts for whole-body 3D pose estimation in
the wild
- Title(参考訳): DOPE:野生における全身3Dポーズ推定のための部品専門家の蒸留
- Authors: Philippe Weinzaepfel, Romain Br\'egier, Hadrien Combaluzier, Vincent
Leroy, Gr\'egory Rogez
- Abstract要約: そこで本研究では,体,手,顔を含む身体全体の3Dポーズを野生で検出し,推定する最初の方法であるDOPEを紹介した。
DOPEは専門家のアンサンブルよりも計算量が少なく、リアルタイムのパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 13.326154235579954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DOPE, the first method to detect and estimate whole-body 3D
human poses, including bodies, hands and faces, in the wild. Achieving this
level of details is key for a number of applications that require understanding
the interactions of the people with each other or with the environment. The
main challenge is the lack of in-the-wild data with labeled whole-body 3D
poses. In previous work, training data has been annotated or generated for
simpler tasks focusing on bodies, hands or faces separately. In this work, we
propose to take advantage of these datasets to train independent experts for
each part, namely a body, a hand and a face expert, and distill their knowledge
into a single deep network designed for whole-body 2D-3D pose detection. In
practice, given a training image with partial or no annotation, each part
expert detects its subset of keypoints in 2D and 3D and the resulting
estimations are combined to obtain whole-body pseudo ground-truth poses. A
distillation loss encourages the whole-body predictions to mimic the experts'
outputs. Our results show that this approach significantly outperforms the same
whole-body model trained without distillation while staying close to the
performance of the experts. Importantly, DOPE is computationally less demanding
than the ensemble of experts and can achieve real-time performance. Test code
and models are available at
https://europe.naverlabs.com/research/computer-vision/dope.
- Abstract(参考訳): そこで本研究では,体,手,顔を含む身体全体の3Dポーズを野生で検出し,推定する最初の方法であるDOPEを紹介する。
このレベルの詳細を達成することは、人々や環境との相互作用を理解する必要がある多くのアプリケーションにとって重要なことです。
主な課題は、全身の3Dポーズをラベル付けしたWildデータの欠如である。
これまでの研究では、体、手、顔に個別にフォーカスするより単純なタスクのために、トレーニングデータが注釈付けや生成されてきた。
本研究では,これらのデータセットを利用して,身体,手,顔のエキスパートといった各部位の独立した専門家を訓練し,その知識を,全身2d-3dポーズ検出用に設計された1つの深層ネットワークに蒸留することを提案する。
実際に、部分的または無アノテーションのトレーニング画像が与えられた場合、各パートエキスパートは、2D、3Dにおけるキーポイントのサブセットを検出し、その結果の見積もりを組み合わせて、全身の擬似地味ポーズを得る。
蒸留損失は、専門家の出力を模倣する全身予測を促進する。
以上の結果から, 本手法は, 蒸留を行わず, 専門家の性能に近づきながら, 同じ全身モデルよりも有意に優れていた。
重要なことは、DOPEは専門家のアンサンブルよりも計算量が少なく、リアルタイムのパフォーマンスを実現することができる。
テストコードとモデルはhttps://europe.naverlabs.com/research/computer-vision/dopeで入手できる。
関連論文リスト
- Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - PedRecNet: Multi-task deep neural network for full 3D human pose and
orientation estimation [0.0]
マルチタスクネットワークは、様々なディープニューラルネットワークベースの歩行者検出機能をサポートしている。
ネットワークアーキテクチャは比較的単純だが強力であり、さらなる研究や応用にも容易に適応できる。
論文 参考訳(メタデータ) (2022-04-25T10:47:01Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。