論文の概要: Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting
- arxiv url: http://arxiv.org/abs/2104.03520v1
- Date: Thu, 8 Apr 2021 05:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 23:22:14.318515
- Title: Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting
- Title(参考訳): カスケード次元リフト法による3次元深部単眼人物ポーズ推定
- Authors: Changgong Zhang, Fangneng Zhan, Yuan Chang
- Abstract要約: 1枚の画像からの3次元ポーズ推定は、深さの曖昧さのために難しい問題である。
従来の手法の1つのタイプは、外部の2Dポーズ検出器に頼って得られた2D関節を3D空間に持ち上げる。
文脈情報を利用しながら、3D空間で直接出力する,新たなエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.336146336350811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 3D pose estimation from a single image is a challenging problem due to
depth ambiguity. One type of the previous methods lifts 2D joints, obtained by
resorting to external 2D pose detectors, to the 3D space. However, this type of
approaches discards the contextual information of images which are strong cues
for 3D pose estimation. Meanwhile, some other methods predict the joints
directly from monocular images but adopt a 2.5D output representation $P^{2.5D}
= (u,v,z^{r}) $ where both $u$ and $v$ are in the image space but $z^{r}$ in
root-relative 3D space. Thus, the ground-truth information (e.g., the depth of
root joint from the camera) is normally utilized to transform the 2.5D output
to the 3D space, which limits the applicability in practice. In this work, we
propose a novel end-to-end framework that not only exploits the contextual
information but also produces the output directly in the 3D space via cascaded
dimension-lifting. Specifically, we decompose the task of lifting pose from 2D
image space to 3D spatial space into several sequential sub-tasks, 1) kinematic
skeletons \& individual joints estimation in 2D space, 2) root-relative depth
estimation, and 3) lifting to the 3D space, each of which employs direct
supervisions and contextual image features to guide the learning process.
Extensive experiments show that the proposed framework achieves
state-of-the-art performance on two widely used 3D human pose datasets
(Human3.6M, MuPoTS-3D).
- Abstract(参考訳): 1つの画像からの3次元ポーズ推定は、深さの曖昧さのために難しい問題である。
従来の手法の1つのタイプは、外部の2Dポーズ検出器に頼って得られた2D関節を3D空間に持ち上げる。
しかし、この種のアプローチは、3次元ポーズ推定のための強い手がかりである画像の文脈情報を捨てる。
一方、他の方法では、ジョイントを単分子画像から直接予測するが、2.5D出力表現である$P^{2.5D} = (u,v,z^{r})$は、$u$と$v$の両方が画像空間にあるが、ルート相対3D空間では$z^{r}$である。
したがって、地中真実情報(例えば、カメラからのルートジョイントの深さ)は、通常、2.5D出力を3D空間に変換するために利用され、実際の適用性が制限される。
本研究では,文脈情報を利用するだけでなく,ケースド次元リフトにより直接3次元空間に出力を生成する新しいエンドツーエンドフレームワークを提案する。
具体的には,2次元画像空間から3次元空間へのポーズを複数の連続的なサブタスクに分解する作業,1)2次元空間における個々の関節の推定,2)根相対的深さ推定,3)3次元空間への持ち上げ,それぞれが直接監督と文脈的画像特徴を用いて学習プロセスを導く。
広汎な実験により,提案フレームワークは2つの広く使用されている3次元ポーズデータセット(Human3.6M, MuPoTS-3D)上で最先端のパフォーマンスを実現することが示された。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone [4.648549457266638]
本研究は,教師なし多人数2D-3Dポーズ推定の実現可能性について検討した最初の研究の1つである。
本手法では,各被験者の2次元ポーズを3次元に独立に持ち上げ,それらを共有3次元座標系で組み合わせる。
これにより、ポーズの正確な3D再構成を検索することができる。
論文 参考訳(メタデータ) (2023-09-26T11:42:56Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - Weakly-supervised Pre-training for 3D Human Pose Estimation via
Perspective Knowledge [36.65402869749077]
本研究では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。
画像中の2点間の深度関係を識別するために,弱教師付き事前学習(WSP)戦略を提案する。
WSPは2つの広く使用されているベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-22T03:35:15Z) - SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low
Dimensional Space [14.81199315166042]
本研究では,多次元再投影と教師あり学習を混合した3次元人間のポーズ推定手法を提案する。
提案手法は,データセットHuman3.6Mの推定結果に基づいて,定性的にも定量的にも,多くの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-04T00:51:00Z) - Lifting 2D Human Pose to 3D with Domain Adapted 3D Body Concept [49.49032810966848]
既存の3Dポーズ推定は,1)2Dデータと3Dデータとのあいまいさ,2)よくラベル付けされた2D-3Dポーズペアの欠如に悩まされている。
本研究では,人体の3次元概念を学習するためにラベル付き3次元ポーズを利用する新しい枠組みを提案する。
2つのドメインに適応することにより、3Dポーズから学んだ身体知識を2Dポーズに適用し、2Dポーズエンコーダを誘導し、ポーズリフトに埋め込まれた情報的な3D"想像"を生成する。
論文 参考訳(メタデータ) (2021-11-23T16:02:12Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。