論文の概要: Scene-Aware 3D Multi-Human Motion Capture from a Single Camera
- arxiv url: http://arxiv.org/abs/2301.05175v3
- Date: Mon, 27 Mar 2023 06:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:57:32.613880
- Title: Scene-Aware 3D Multi-Human Motion Capture from a Single Camera
- Title(参考訳): 単一カメラからのシーン認識型3次元マルチヒューマンモーションキャプチャ
- Authors: Diogo Luvizon, Marc Habermann, Vladislav Golyanik, Adam Kortylewski,
Christian Theobalt
- Abstract要約: 静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
- 参考スコア(独自算出の注目度): 83.06768487435818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of estimating the 3D position of
multiple humans in a scene as well as their body shape and articulation from a
single RGB video recorded with a static camera. In contrast to expensive
marker-based or multi-view systems, our lightweight setup is ideal for private
users as it enables an affordable 3D motion capture that is easy to install and
does not require expert knowledge. To deal with this challenging setting, we
leverage recent advances in computer vision using large-scale pre-trained
models for a variety of modalities, including 2D body joints, joint angles,
normalized disparity maps, and human segmentation masks. Thus, we introduce the
first non-linear optimization-based approach that jointly solves for the
absolute 3D position of each human, their articulated pose, their individual
shapes as well as the scale of the scene. In particular, we estimate the scene
depth and person unique scale from normalized disparity predictions using the
2D body joints and joint angles. Given the per-frame scene depth, we
reconstruct a point-cloud of the static scene in 3D space. Finally, given the
per-frame 3D estimates of the humans and scene point-cloud, we perform a
space-time coherent optimization over the video to ensure temporal, spatial and
physical plausibility. We evaluate our method on established multi-person 3D
human pose benchmarks where we consistently outperform previous methods and we
qualitatively demonstrate that our method is robust to in-the-wild conditions
including challenging scenes with people of different sizes.
- Abstract(参考訳): 本研究では,静的カメラで記録された1枚のRGBビデオから,シーン内の複数の人間の3次元位置を推定する問題と,その身体形状と調音性について考察する。
高価なマーカーベースやマルチビューシステムとは対照的に、当社の軽量なセットアップは、インストールが容易で専門家の知識を必要としない安価な3dモーションキャプチャを可能にするため、プライベートユーザにとって理想的です。
この困難な状況に対処するため,我々は,2次元身体関節,関節角度,正規化格差マップ,ヒトセグメンテーションマスクなど,様々な形態の大規模事前学習モデルを用いて,コンピュータビジョンの最近の進歩を活用している。
そこで,本稿では,人間の絶対3次元位置,関節的なポーズ,個々の形状,シーンのスケールについて共同で解く,非線形最適化に基づく最初のアプローチを提案する。
特に, 2次元身体関節と関節角度を用いた正規化不等式予測から, シーンの奥行きと人別尺度を推定した。
フレームあたりのシーン深度を考慮し、3次元空間の静的シーンの点雲を再構成する。
最後に、人間のフレーム当たりの3D推定値とシーンポイントクラウドを考慮し、時間的、空間的、物理的妥当性を確保するために、ビデオ上で時空間コヒーレントな最適化を行う。
本手法は,従来手法を一貫して上回る多人数3次元ポーズベンチマークを用いて評価し,異なる大きさの人物による挑戦シーンを含む実環境条件にロバストな手法であることを定性的に証明した。
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文 参考訳(メタデータ) (2022-11-30T12:50:40Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - 3DCrowdNet: 2D Human Pose-Guided3D Crowd Human Pose and Shape Estimation
in the Wild [61.92656990496212]
3DCrowdNetは、2D人間のポーズガイド3D群衆ポーズと形状推定システムです。
我々の3DCrowdNetは、これまでのクラウドシーンの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-15T08:21:28Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Human POSEitioning System (HPS): 3D Human Pose Estimation and
Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。
最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。
hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文 参考訳(メタデータ) (2021-03-31T17:58:31Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。