論文の概要: Multi-Person 3D Pose Estimation from Multi-View Uncalibrated Depth
Cameras
- arxiv url: http://arxiv.org/abs/2401.15616v1
- Date: Sun, 28 Jan 2024 10:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:30:16.090019
- Title: Multi-Person 3D Pose Estimation from Multi-View Uncalibrated Depth
Cameras
- Title(参考訳): 多視点非共用深度カメラによる多人数3次元ポーズ推定
- Authors: Yu-Jhe Li, Yan Xu, Rawal Khirodkar, Jinhyung Park, Kris Kitani
- Abstract要約: 我々は、限られた数の非校正深度カメラから、多視点多人数3D人物ポーズ推定の課題に取り組む。
本稿では,3次元ポーズ推定のためのRGBDビデオストリームを提供する,疎遠で校正されていない深度カメラを活用することを提案する。
- 参考スコア(独自算出の注目度): 36.59439020480503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We tackle the task of multi-view, multi-person 3D human pose estimation from
a limited number of uncalibrated depth cameras. Recently, many approaches have
been proposed for 3D human pose estimation from multi-view RGB cameras.
However, these works (1) assume the number of RGB camera views is large enough
for 3D reconstruction, (2) the cameras are calibrated, and (3) rely on ground
truth 3D poses for training their regression model. In this work, we propose to
leverage sparse, uncalibrated depth cameras providing RGBD video streams for 3D
human pose estimation. We present a simple pipeline for Multi-View Depth Human
Pose Estimation (MVD-HPE) for jointly predicting the camera poses and 3D human
poses without training a deep 3D human pose regression model. This framework
utilizes 3D Re-ID appearance features from RGBD images to formulate more
accurate correspondences (for deriving camera positions) compared to using
RGB-only features. We further propose (1) depth-guided camera-pose estimation
by leveraging 3D rigid transformations as guidance and (2) depth-constrained 3D
human pose estimation by utilizing depth-projected 3D points as an alternative
objective for optimization. In order to evaluate our proposed pipeline, we
collect three video sets of RGBD videos recorded from multiple sparse-view
depth cameras and ground truth 3D poses are manually annotated. Experiments
show that our proposed method outperforms the current 3D human pose
regression-free pipelines in terms of both camera pose estimation and 3D human
pose estimation.
- Abstract(参考訳): 我々は、限られた数の非校正深度カメラから多視点多人3次元ポーズ推定の課題に取り組む。
近年,多視点RGBカメラを用いた3次元ポーズ推定法が提案されている。
しかし,これらの作業は,(1)RGBカメラビューの数が3次元再構成に十分大きいと仮定し,(2)カメラの校正を行い,(3)レグレッションモデルのトレーニングには地上の真理3Dポーズに依存する。
本研究では,rgbdビデオストリームによる3次元人物ポーズ推定を行うための,疎密で非対応の奥行きカメラの活用を提案する。
本稿では、カメラのポーズと3Dのポーズを3次元の人間のポーズ回帰モデルを訓練することなく、共同で予測する多視点深度人間のポーズ推定(MVD-HPE)のための簡単なパイプラインを提案する。
このフレームワークはRGBD画像からの3D Re-IDの外観特徴を利用して、RGBのみの機能よりも正確な対応(カメラ位置の導出)を定式化している。
さらに,(1)3次元剛性変換を誘導として深度誘導カメラの位置推定と,(2)深度投影3次元点を最適化の代替目的として用いる深さ拘束3次元ポーズ推定を提案する。
提案するパイプラインを評価するために,複数のスパークビュー深度カメラから記録されたRGBDビデオ3セットと,手動で3Dポーズをアノテートする。
実験の結果,提案手法はカメラポーズ推定と3次元ポーズ推定の両方の観点から,現在の3次元ポーズフリーパイプラインよりも優れていた。
関連論文リスト
- EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans [5.047302480095444]
モノクラーヒューマンポース推定は、カメラが捉えた単一の2D画像から人間の関節の3D位置を決定することを目的としている。
本研究では,近似に頼らず,全視点カメラモデルの利用を提唱する。
本稿では,プライスリフタネットワーク(LiftNet)とプライスレグレシタネットワーク(RegNet)の2つの主要コンポーネントからなるEPOCHフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-06-28T08:16:54Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - CameraPose: Weakly-Supervised Monocular 3D Human Pose Estimation by
Leveraging In-the-wild 2D Annotations [25.05308239278207]
一つの画像から3次元のポーズ推定を行うための弱教師付きフレームワークであるCameraPoseを提案する。
カメラパラメータブランチを追加することで、Wildの2Dアノテーションをパイプラインに投入して、トレーニングの多様性を高めることができます。
また、2次元ポーズ推定器によって抽出されたノイズの多い2Dキーポイントの品質をさらに向上させるため、信頼誘導損失を有する改良型ネットワークモジュールも導入する。
論文 参考訳(メタデータ) (2023-01-08T05:07:41Z) - SPEC: Seeing People in the Wild with an Estimated Camera [64.85791231401684]
1枚の画像から視点カメラを推定する最初の3DHPS方式であるSPECを紹介する。
我々は、視野、カメラピッチ、入力画像のロールを推定するためにニューラルネットワークを訓練する。
次に、カメラキャリブレーションを画像の特徴に合わせてロールする新しいネットワークをトレーニングし、これらを組み合わせて3Dのボディ形状とポーズを復元する。
論文 参考訳(メタデータ) (2021-10-01T19:05:18Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video [23.00696619207748]
ビデオから3D人間のポーズを推定することは難しい問題です。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、見えないデータセットへの一般化の大きな障害です。
3dアノテーションやキャリブレーションカメラを必要としない弱い教師付きトレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-14T00:46:48Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。