論文の概要: SmartMocap: Joint Estimation of Human and Camera Motion using
Uncalibrated RGB Cameras
- arxiv url: http://arxiv.org/abs/2209.13906v1
- Date: Wed, 28 Sep 2022 08:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:13:26.950722
- Title: SmartMocap: Joint Estimation of Human and Camera Motion using
Uncalibrated RGB Cameras
- Title(参考訳): SmartMocap:RGBカメラを用いた人間とカメラの動きの同時推定
- Authors: Nitin Saini, Chun-hao P. Huang, Michael J. Black, Aamir Ahmad
- Abstract要約: 複数のRGBカメラからのマーカーレス人間のモーションキャプチャ(モキャップ)は、広く研究されている問題である。
既存の方法は、モキャップシステムの基準フレームとして機能するスタティックカメラに対して、キャリブレーションされたカメラを必要とするか、あるいはそれらをキャリブレーションする必要がある。
複数の静止・移動可能なRGBカメラを用いたモキャップ方式を提案する。
- 参考スコア(独自算出の注目度): 49.110201064166915
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Markerless human motion capture (mocap) from multiple RGB cameras is a widely
studied problem. Existing methods either need calibrated cameras or calibrate
them relative to a static camera, which acts as the reference frame for the
mocap system. The calibration step has to be done a priori for every capture
session, which is a tedious process, and re-calibration is required whenever
cameras are intentionally or accidentally moved. In this paper, we propose a
mocap method which uses multiple static and moving extrinsically uncalibrated
RGB cameras. The key components of our method are as follows. First, since the
cameras and the subject can move freely, we select the ground plane as a common
reference to represent both the body and the camera motions unlike existing
methods which represent bodies in the camera coordinate. Second, we learn a
probability distribution of short human motion sequences ($\sim$1sec) relative
to the ground plane and leverage it to disambiguate between the camera and
human motion. Third, we use this distribution as a motion prior in a novel
multi-stage optimization approach to fit the SMPL human body model and the
camera poses to the human body keypoints on the images. Finally, we show that
our method can work on a variety of datasets ranging from aerial cameras to
smartphones. It also gives more accurate results compared to the
state-of-the-art on the task of monocular human mocap with a static camera. Our
code is available for research purposes on
https://github.com/robot-perception-group/SmartMocap.
- Abstract(参考訳): 複数のrgbカメラからのマーカーレスモーションキャプチャ(mocap)は広く研究されている問題である。
既存の方法は、モキャップシステムの基準フレームとして機能するスタティックカメラに対して、キャリブレーションされたカメラやキャリブレーションを必要とする。
キャリブレーションステップは、面倒なプロセスであるキャプチャセッション毎にプリオリを行う必要があり、カメラが意図的にまたは誤って移動されたときに再校正が必要である。
本稿では,複数の静止・移動可能なRGBカメラを用いたモキャップ方式を提案する。
本手法の主な構成要素は以下の通りである。
まず、カメラと被写体は自由に動けるので、カメラ座標内の物体を表す既存の方法とは異なり、地上面を身体とカメラの動きの両方を表す共通参照として選択する。
次に、地上面に対して短い人間の動き列($1sec)の確率分布を学習し、それをカメラと人間の動きの曖昧さに活用する。
第3に、この分布を、新しい多段階最適化アプローチに先立って動きとして使用し、smpl人体モデルに適合させ、カメラが画像の人体キーポイントにポーズを取る。
最後に,提案手法が,航空カメラからスマートフォンまで,さまざまなデータセットで動作可能であることを示す。
また、静的カメラによる単眼型人間のモキャップのタスクの最先端技術と比較すると、より正確な結果が得られる。
私たちのコードは研究目的でhttps://github.com/robot-perception-group/smartmocapで利用できます。
関連論文リスト
- COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - CasCalib: Cascaded Calibration for Motion Capture from Sparse Unsynchronized Cameras [18.51320244029833]
オフザシェルフ3次元ポーズ推定器を用いた単眼画像から3次元人間のポーズを推定できるようになった。
多くの実用アプリケーションは、マルチビューキューとカメラキャリブレーションが必要な、きめ細かい絶対ポーズ情報を必要とする。
私たちのゴールは、時間同期を含む完全自動化と、固有のカメラキャリブレーションと、外部カメラキャリブレーションです。
論文 参考訳(メタデータ) (2024-05-10T23:02:23Z) - WHAC: World-grounded Humans and Cameras [37.877565981937586]
我々は,表現的パラメトリック人間モデル(SMPL-X)と対応するカメラのポーズを共同で再現することを目指している。
WHACと呼ばれる新しいフレームワークを導入し、世界規模で表現された人間のポーズと形状の推定を容易にする。
我々は、正確に注釈付けされた人間とカメラを含む新しい合成データセットWHAC-A-Moleを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:58:02Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - Dynamic Multi-Person Mesh Recovery From Uncalibrated Multi-View Cameras [11.225376081130849]
検出された人間の意味論の低周波・高周波ノイズを低減するために物理幾何学的整合性を導入する。
そこで, 外部カメラパラメータとコヒーレントな人間の動作を, わずかにノイズのある入力から同時に最適化する新しい潜伏運動法を提案する。
実験結果から,1段階の最適化により,正確なカメラパラメータと人間の動きが得られることがわかった。
論文 参考訳(メタデータ) (2021-10-20T03:19:20Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。