論文の概要: Multi-View Person Matching and 3D Pose Estimation with Arbitrary
Uncalibrated Camera Networks
- arxiv url: http://arxiv.org/abs/2312.01561v1
- Date: Mon, 4 Dec 2023 01:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:47:25.467616
- Title: Multi-View Person Matching and 3D Pose Estimation with Arbitrary
Uncalibrated Camera Networks
- Title(参考訳): 任意カメラネットワークを用いた多視点人物マッチングと3次元ポーズ推定
- Authors: Yan Xu, Kris Kitani
- Abstract要約: マルチカメラネットワークにおける人物マッチングと人物の3次元ポーズ推定は、カメラが外在的に校正されていない場合、困難である。
既存の取り組みでは、ニューラルネットワークや既知のカメラのトレーニングに大量の3Dデータが必要である。
どちらの情報も必要とせずに2つの課題を解く手法であるPMEを提案する。
- 参考スコア(独自算出の注目度): 36.49915280876899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view person matching and 3D human pose estimation in multi-camera
networks are particularly difficult when the cameras are extrinsically
uncalibrated. Existing efforts generally require large amounts of 3D data for
training neural networks or known camera poses for geometric constraints to
solve the problem. However, camera poses and 3D data annotation are usually
expensive and not always available. We present a method, PME, that solves the
two tasks without requiring either information. Our idea is to address
cross-view person matching as a clustering problem using each person as a
cluster center, then obtain correspondences from person matches, and estimate
3D human poses through multi-view triangulation and bundle adjustment. We solve
the clustering problem by introducing a "size constraint" using the number of
cameras and a "source constraint" using the fact that two people from the same
camera view should not match, to narrow the solution space to a small feasible
region. The 2D human poses used in clustering are obtained through a
pre-trained 2D pose detector, so our method does not require expensive 3D
training data for each new scene. We extensively evaluate our method on three
open datasets and two indoor and outdoor datasets collected using arbitrarily
set cameras. Our method outperforms other methods by a large margin on
cross-view person matching, reaches SOTA performance on 3D human pose
estimation without using either camera poses or 3D training data, and shows
good generalization ability across five datasets of various environment
settings.
- Abstract(参考訳): マルチカメラネットワークにおけるクロスビュー人物マッチングと3次元人物ポーズ推定は,カメラが極端に非対応である場合,特に困難である。
既存の取り組みは一般的に、ニューラルネットワークのトレーニングや既知のカメラのための大量の3Dデータを必要とする。
しかし、カメラポーズと3dデータアノテーションは通常高価であり、必ずしも利用可能ではない。
どちらの情報も必要とせずに2つの課題を解く手法であるPMEを提案する。
本研究では,クラスタセンタとして各人物を用いたクラスタリング問題としてクロスビュー人物マッチングに対処し,個人マッチングから対応文を取得し,マルチビュー三角測量とバンドル調整により3次元人間のポーズを推定する。
本稿では,カメラ数とソース制約を用いた「サイズ制約」を導入し,同じカメラビューから2人が一致しないという事実を用いて,解空間を小さな実現可能な領域に絞り込むことにより,クラスタリング問題を解決する。
クラスタリングに使用する2次元人間のポーズは,事前学習された2次元ポーズ検出器によって得られるため,新たなシーン毎に高価な3次元トレーニングデータを必要としない。
本手法は,任意に設定したカメラを用いて収集した3つのオープンデータセットと2つの屋内および屋外データセットについて広範囲に評価した。
提案手法は, カメラポーズや3次元トレーニングデータを用いずに3次元ポーズ推定におけるSOTA性能に到達し, 各種環境設定の5つのデータセット間で良好な一般化能力を示す。
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Multi-person 3D pose estimation from unlabelled data [2.54990557236581]
シナリオ内の人々の横断的な対応を予測できるグラフニューラルネットワークに基づくモデルを提案する。
また、各人物の3Dポーズを生成するために2Dポイントを利用する多層パーセプトロンも提示する。
論文 参考訳(メタデータ) (2022-12-16T22:03:37Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video [23.00696619207748]
ビデオから3D人間のポーズを推定することは難しい問題です。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、見えないデータセットへの一般化の大きな障害です。
3dアノテーションやキャリブレーションカメラを必要としない弱い教師付きトレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-14T00:46:48Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Iterative Greedy Matching for 3D Human Pose Tracking from Multiple Views [22.86745487695168]
キャリブレーションカメラのセットから複数の人の3D人間のポーズを推定するアプローチを提案する。
提案手法は,リアルタイム2次元多人数ポーズ推定システムを構築し,複数視点間の連想問題を柔軟に解決する。
論文 参考訳(メタデータ) (2021-01-24T16:28:10Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。