論文の概要: MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction
- arxiv url: http://arxiv.org/abs/2403.05055v3
- Date: Sat, 24 Aug 2024 06:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:06:22.119825
- Title: MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction
- Title(参考訳): MUC:ロバストな3D人体再構築のための非校正カメラの混合
- Authors: Yitao Zhu, Sheng Wang, Mengjie Xu, Zixu Zhuang, Zhixin Wang, Kaidong Wang, Han Zhang, Qian Wang,
- Abstract要約: 複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
以前の研究では、複数の視点の下で自己排除によって生じる課題を見落としていた。
複数のカメラビューから3次元人体を再構築する手法を提案する。
- 参考スコア(独自算出の注目度): 12.942635715952525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple cameras can provide comprehensive multi-view video coverage of a person. Fusing this multi-view data is crucial for tasks like behavioral analysis, although it traditionally requires camera calibration, a process that is often complex. Moreover, previous studies have overlooked the challenges posed by self-occlusion under multiple views and the continuity of human body shape estimation. In this study, we introduce a method to reconstruct the 3D human body from multiple uncalibrated camera views. Initially, we utilize a pre-trained human body encoder to process each camera view individually, enabling the reconstruction of human body models and parameters for each view along with predicted camera positions. Rather than merely averaging the models across views, we develop a neural network trained to assign weights to individual views for all human body joints, based on the estimated distribution of joint distances from each camera. Additionally, we focus on the mesh surface of the human body for dynamic fusion, allowing for the seamless integration of facial expressions and body shape into a unified human body model. Our method has shown excellent performance in reconstructing the human body on two public datasets, advancing beyond previous work from the SMPL model to the SMPL-X model. This extension incorporates more complex hand poses and facial expressions, enhancing the detail and accuracy of the reconstructions. Crucially, it supports the flexible ad-hoc deployment of any number of cameras, offering significant potential for various applications. Our code is available at https://github.com/AbsterZhu/MUC.
- Abstract(参考訳): 複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
このマルチビューデータを融合することは、行動分析のようなタスクには不可欠だが、伝統的にカメラのキャリブレーションを必要とする。
さらに, 複数視点での自己閉塞による課題と, 人体形状推定の連続性を見落としている。
本研究では,複数のカメラビューから3次元人体を再構築する手法を提案する。
当初、トレーニング済みの人体エンコーダを用いて、各カメラビューを個別に処理し、予測されたカメラ位置とともに、人体モデルと各ビューのパラメータの再構成を可能にする。
ビュー全体にわたってモデルを平均化するのではなく、各カメラからの関節距離の推定値に基づいて、人間の関節の個々のビューに重みを割り当てるように訓練されたニューラルネットワークを開発する。
さらに,ダイナミックフュージョンのための人体のメッシュ面に焦点を合わせ,顔の表情と体形をシームレスに統合し,統一された人体モデルを構築する。
本手法は, SMPLモデルからSMPL-Xモデルまで, 2つの公開データセット上での人体再構築に優れた性能を示した。
この拡張には、より複雑な手ポーズと表情が含まれており、再建の詳細と精度が向上している。
重要なのは、さまざまなカメラのフレキシブルなアドホック展開をサポートし、さまざまなアプリケーションに大きな可能性を秘めていることだ。
私たちのコードはhttps://github.com/AbsterZhu/MUC.comで公開されています。
関連論文リスト
- Human Mesh Recovery from Arbitrary Multi-view Images [57.969696744428475]
任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-03-19T04:47:56Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - SPEC: Seeing People in the Wild with an Estimated Camera [64.85791231401684]
1枚の画像から視点カメラを推定する最初の3DHPS方式であるSPECを紹介する。
我々は、視野、カメラピッチ、入力画像のロールを推定するためにニューラルネットワークを訓練する。
次に、カメラキャリブレーションを画像の特徴に合わせてロールする新しいネットワークをトレーニングし、これらを組み合わせて3Dのボディ形状とポーズを復元する。
論文 参考訳(メタデータ) (2021-10-01T19:05:18Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。