論文の概要: Reconstructing Close Human Interactions from Multiple Views
- arxiv url: http://arxiv.org/abs/2401.16173v1
- Date: Mon, 29 Jan 2024 14:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:41:36.107416
- Title: Reconstructing Close Human Interactions from Multiple Views
- Title(参考訳): 複数の視点から人間同士の密接な相互作用を再構築する
- Authors: Qing Shuai, Zhiyuan Yu, Zhize Zhou, Lixin Fan, Haijun Yang, Can Yang,
Xiaowei Zhou
- Abstract要約: 本稿では,複数のキャリブレーションカメラで捉えた密接なインタラクションを行う複数の個人のポーズを再構築する上での課題について述べる。
これらの課題に対処する新しいシステムを導入する。
本システムは,学習に基づくポーズ推定コンポーネントと,それに対応するトレーニングと推論戦略を統合する。
- 参考スコア(独自算出の注目度): 38.924950289788804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenging task of reconstructing the poses of
multiple individuals engaged in close interactions, captured by multiple
calibrated cameras. The difficulty arises from the noisy or false 2D keypoint
detections due to inter-person occlusion, the heavy ambiguity in associating
keypoints to individuals due to the close interactions, and the scarcity of
training data as collecting and annotating motion data in crowded scenes is
resource-intensive. We introduce a novel system to address these challenges.
Our system integrates a learning-based pose estimation component and its
corresponding training and inference strategies. The pose estimation component
takes multi-view 2D keypoint heatmaps as input and reconstructs the pose of
each individual using a 3D conditional volumetric network. As the network
doesn't need images as input, we can leverage known camera parameters from test
scenes and a large quantity of existing motion capture data to synthesize
massive training data that mimics the real data distribution in test scenes.
Extensive experiments demonstrate that our approach significantly surpasses
previous approaches in terms of pose accuracy and is generalizable across
various camera setups and population sizes. The code is available on our
project page: https://github.com/zju3dv/CloseMoCap.
- Abstract(参考訳): 本稿では,複数のキャリブレーションカメラで捉えた密接なインタラクションを行う複数の個人のポーズを再構築する上での課題について述べる。
人間密着によるノイズや偽の2Dキーポイント検出、密接な相互作用による個人へのキーポイントの関連性の曖昧さ、混み合ったシーンにおけるモーションデータの収集および注釈付けとしてのトレーニングデータの不足から、難易度が生じる。
これらの課題に対処する新しいシステムを導入する。
本システムは,学習に基づくポーズ推定コンポーネントと,それに対応するトレーニングと推論戦略を統合する。
ポーズ推定成分は、多視点2次元キーポイントヒートマップを入力として、3次元条件容積ネットワークを用いて各個人のポーズを再構成する。
ネットワークは画像の入力を必要としないため、テストシーンからの既知のカメラパラメータと大量の既存のモーションキャプチャデータを利用して、テストシーンにおける実際のデータ分布を模倣した大規模なトレーニングデータを合成することができる。
広汎な実験により,提案手法はポーズの精度において従来のアプローチをはるかに上回り,様々なカメラ設定や集団サイズで一般化可能であることが示された。
コードはプロジェクトページで利用可能です。 https://github.com/zju3dv/closemocap.com/。
関連論文リスト
- Multi-person 3D pose estimation from unlabelled data [2.54990557236581]
シナリオ内の人々の横断的な対応を予測できるグラフニューラルネットワークに基づくモデルを提案する。
また、各人物の3Dポーズを生成するために2Dポイントを利用する多層パーセプトロンも提示する。
論文 参考訳(メタデータ) (2022-12-16T22:03:37Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose [36.384824115033304]
本研究では,3次元のポーズを明示的に予測することなく,2次元のボディジョイントキーポイントからコンパクトなビュー不変埋め込み空間を学習する手法を提案する。
実験の結果,異なるカメラビューで類似のポーズを検索すると,埋め込みモデルの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-10-23T17:58:35Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。
そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-13T08:01:24Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Self-supervised Keypoint Correspondences for Multi-Person Pose
Estimation and Tracking in Videos [32.43899916477434]
本稿では,映像中の人物を関連付けるために,キーポイント対応に依存するアプローチを提案する。
ビデオデータ上でキーポイント対応を推定するためにネットワークをトレーニングする代わりに、人間のポーズ推定のために大規模な画像データセットでトレーニングする。
提案手法は,PosTrack$2017およびPoseTrack$2018のデータセット上で,複数フレームのポーズ推定と複数人物のポーズ追跡の最先端結果を実現する。
論文 参考訳(メタデータ) (2020-04-27T09:02:24Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。