論文の概要: Weakly-supervised Cross-view 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2105.10882v1
- Date: Sun, 23 May 2021 08:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 10:45:11.232878
- Title: Weakly-supervised Cross-view 3D Human Pose Estimation
- Title(参考訳): 弱教師付きクロスビュー3次元ポーズ推定
- Authors: Guoliang Hua, Wenhao Li, Qian Zhang, Runwei Ding, Hong Liu
- Abstract要約: 弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
本手法は,最先端の性能を弱い教師付きで達成することができる。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
- 参考スコア(独自算出の注目度): 16.045255544594625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although monocular 3D human pose estimation methods have made significant
progress, it's far from being solved due to the inherent depth ambiguity.
Instead, exploiting multi-view information is a practical way to achieve
absolute 3D human pose estimation. In this paper, we propose a simple yet
effective pipeline for weakly-supervised cross-view 3D human pose estimation.
By only using two camera views, our method can achieve state-of-the-art
performance in a weakly-supervised manner, requiring no 3D ground truth but
only 2D annotations. Specifically, our method contains two steps: triangulation
and refinement. First, given the 2D keypoints that can be obtained through any
classic 2D detection methods, triangulation is performed across two views to
lift the 2D keypoints into coarse 3D poses.Then, a novel cross-view U-shaped
graph convolutional network (CV-UGCN), which can explore the spatial
configurations and cross-view correlations, is designed to refine the coarse 3D
poses. In particular, the refinement progress is achieved through
weakly-supervised learning, in which geometric and structure-aware consistency
checks are performed. We evaluate our method on the standard benchmark dataset,
Human3.6M. The Mean Per Joint Position Error on the benchmark dataset is 27.4
mm, which outperforms the state-of-the-arts remarkably (27.4 mm vs 30.2 mm).
- Abstract(参考訳): 単眼的3次元人物ポーズ推定手法は有意な進歩を遂げているが,本質的な奥行きあいまいさのため解決には至っていない。
代わりに、マルチビュー情報を活用することは、絶対的な3d人間のポーズ推定を実現する実用的な方法である。
本稿では,弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
2つのカメラビューのみを使用することで,2次元アノテーションのみを必要とせず,弱い教師付きで最先端のパフォーマンスを実現することができる。
具体的には,三角法と微細化の2段階を含む。
まず,従来の2D検出手法で得られる2Dキーポイントを考慮し,2Dキーポイントを粗い3Dポーズに上げるために2つのビューにわたって三角測量を行い,さらに,空間構成や相互相関を探索できる新しいU字グラフ畳み込みネットワーク(CV-UGCN)を設計し,粗い3Dポーズを洗練させる。
特に、幾何的および構造認識の整合性チェックを行う弱教師付き学習により、洗練の進行が達成される。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
ベンチマークデータセットの平均的な関節位置誤差は27.4mmであり、最先端(27.4mm対30.2mm)を著しく上回っている。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Weakly-supervised Pre-training for 3D Human Pose Estimation via
Perspective Knowledge [36.65402869749077]
本研究では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。
画像中の2点間の深度関係を識別するために,弱教師付き事前学習(WSP)戦略を提案する。
WSPは2つの広く使用されているベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-22T03:35:15Z) - SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low
Dimensional Space [14.81199315166042]
本研究では,多次元再投影と教師あり学習を混合した3次元人間のポーズ推定手法を提案する。
提案手法は,データセットHuman3.6Mの推定結果に基づいて,定性的にも定量的にも,多くの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-04T00:51:00Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose
Estimation from a Single Depth Map [72.93634777578336]
弱教師付き方式で3次元畳み込みを訓練した新しいアーキテクチャを提案する。
提案されたアプローチは、SynHand5Mデータセット上で、アートの状態を47.8%改善する。
我々の手法は、NYUとBigHand2.2Mデータセットで視覚的により合理的で現実的な手形を生成する。
論文 参考訳(メタデータ) (2020-04-03T14:27:16Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。