論文の概要: Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS
- arxiv url: http://arxiv.org/abs/2003.03972v3
- Date: Thu, 29 Jul 2021 03:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:01:43.261835
- Title: Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS
- Title(参考訳): マルチHuman 3D Pose 推定のための100FPS以上でのクロスビュートラッキング
- Authors: Long Chen, Haizhou Ai, Rui Chen, Zijie Zhuang, Shuang Liu
- Abstract要約: マルチキャリブレーションカメラビューから複数人の3Dポーズを推定する新しい手法を提案する。
異なるカメラ座標の2Dポーズを入力として取り、グローバル座標の正確な3Dポーズを目指しています。
カメラビューが12から28の大規模マルチヒューマンデータセットを提案する。
- 参考スコア(独自算出の注目度): 13.191601826570786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D poses of multiple humans in real-time is a classic but still
challenging task in computer vision. Its major difficulty lies in the ambiguity
in cross-view association of 2D poses and the huge state space when there are
multiple people in multiple views. In this paper, we present a novel solution
for multi-human 3D pose estimation from multiple calibrated camera views. It
takes 2D poses in different camera coordinates as inputs and aims for the
accurate 3D poses in the global coordinate. Unlike previous methods that
associate 2D poses among all pairs of views from scratch at every frame, we
exploit the temporal consistency in videos to match the 2D inputs with 3D poses
directly in 3-space. More specifically, we propose to retain the 3D pose for
each person and update them iteratively via the cross-view multi-human
tracking. This novel formulation improves both accuracy and efficiency, as we
demonstrated on widely-used public datasets. To further verify the scalability
of our method, we propose a new large-scale multi-human dataset with 12 to 28
camera views. Without bells and whistles, our solution achieves 154 FPS on 12
cameras and 34 FPS on 28 cameras, indicating its ability to handle large-scale
real-world applications. The proposed dataset is released at
https://github.com/longcw/crossview_3d_pose_tracking.
- Abstract(参考訳): リアルタイムで複数の人間の3Dポーズを推定することは、コンピュータビジョンにおける古典的だが依然として難しい課題である。
その大きな難しさは、2Dポーズのクロスビューアソシエーションの曖昧さと、複数のビューに複数の人がいる場合の巨大な状態空間にある。
本稿では,複数のキャリブレーションされたカメラビューから複数人の3Dポーズを推定する新しい手法を提案する。
入力として異なるカメラ座標で2dポーズを取り、グローバル座標における正確な3dポーズを目標とする。
各フレームでスクラッチから2Dのポーズを関連付ける従来の方法とは異なり、ビデオの時間的一貫性を利用して3次元のポーズを直接3次元空間でマッチングする。
より具体的には、各人の3dポーズを保持し、クロスビューマルチヒューマントラッキングを通じて反復的に更新することを提案する。
この新しい定式化は、広く使われている公開データセットで示すように、精度と効率の両方を改善する。
本手法のスケーラビリティをさらに検証するために,12から28のカメラビューを持つ大規模マルチヒューマンデータセットを提案する。
12台のカメラで154FPS、28台のカメラで34FPSを実現し、大規模な現実世界のアプリケーションを扱う能力を示している。
提案されたデータセットはhttps://github.com/longcw/crossview_3d_pose_trackingでリリースされる。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Multi-View Person Matching and 3D Pose Estimation with Arbitrary
Uncalibrated Camera Networks [36.49915280876899]
マルチカメラネットワークにおける人物マッチングと人物の3次元ポーズ推定は、カメラが外在的に校正されていない場合、困難である。
既存の取り組みでは、ニューラルネットワークや既知のカメラのトレーニングに大量の3Dデータが必要である。
どちらの情報も必要とせずに2つの課題を解く手法であるPMEを提案する。
論文 参考訳(メタデータ) (2023-12-04T01:28:38Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Iterative Greedy Matching for 3D Human Pose Tracking from Multiple Views [22.86745487695168]
キャリブレーションカメラのセットから複数の人の3D人間のポーズを推定するアプローチを提案する。
提案手法は,リアルタイム2次元多人数ポーズ推定システムを構築し,複数視点間の連想問題を柔軟に解決する。
論文 参考訳(メタデータ) (2021-01-24T16:28:10Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。