論文の概要: EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans
- arxiv url: http://arxiv.org/abs/2406.19726v1
- Date: Fri, 28 Jun 2024 08:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:29:51.677699
- Title: EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans
- Title(参考訳): EPOCH:カメラと人間の3Dマップを共同で推定
- Authors: Nicola Garau, Giulia Martinelli, Niccolò Bisagno, Denis Tomè, Carsten Stoll,
- Abstract要約: モノクラーヒューマンポース推定は、カメラが捉えた単一の2D画像から人間の関節の3D位置を決定することを目的としている。
本研究では,近似に頼らず,全視点カメラモデルの利用を提唱する。
本稿では,プライスリフタネットワーク(LiftNet)とプライスレグレシタネットワーク(RegNet)の2つの主要コンポーネントからなるEPOCHフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 5.047302480095444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular Human Pose Estimation (HPE) aims at determining the 3D positions of human joints from a single 2D image captured by a camera. However, a single 2D point in the image may correspond to multiple points in 3D space. Typically, the uniqueness of the 2D-3D relationship is approximated using an orthographic or weak-perspective camera model. In this study, instead of relying on approximations, we advocate for utilizing the full perspective camera model. This involves estimating camera parameters and establishing a precise, unambiguous 2D-3D relationship. To do so, we introduce the EPOCH framework, comprising two main components: the pose lifter network (LiftNet) and the pose regressor network (RegNet). LiftNet utilizes the full perspective camera model to precisely estimate the 3D pose in an unsupervised manner. It takes a 2D pose and camera parameters as inputs and produces the corresponding 3D pose estimation. These inputs are obtained from RegNet, which starts from a single image and provides estimates for the 2D pose and camera parameters. RegNet utilizes only 2D pose data as weak supervision. Internally, RegNet predicts a 3D pose, which is then projected to 2D using the estimated camera parameters. This process enables RegNet to establish the unambiguous 2D-3D relationship. Our experiments show that modeling the lifting as an unsupervised task with a camera in-the-loop results in better generalization to unseen data. We obtain state-of-the-art results for the 3D HPE on the Human3.6M and MPI-INF-3DHP datasets. Our code is available at: [Github link upon acceptance, see supplementary materials].
- Abstract(参考訳): HPE (Monocular Human Pose Estimation) は、カメラが捉えた単一の2D画像から、人間の関節の3D位置を決定することを目的としている。
しかし、画像内の1つの2Dポイントは、3D空間内の複数のポイントに対応しているかもしれない。
通常、2D-3D関係の特異性は、直観的または弱視的カメラモデルを用いて近似される。
本研究では,近似に頼らず,全視点カメラモデルの利用を提唱する。
これには、カメラパラメータを推定し、正確な2D-3D関係を確立することが含まれる。
そこで本研究では,ポーズリフタネットワーク(LiftNet)とポーズレグレッタネットワーク(RegNet)の2つの主要コンポーネントからなるEPOCHフレームワークを紹介する。
LiftNetは、フルパースペクティブカメラモデルを使用して、教師なしの方法で3Dポーズを正確に推定する。
2Dポーズとカメラパラメータを入力として、対応する3Dポーズ推定を生成する。
これらの入力は、単一のイメージから始まり、2Dポーズとカメラパラメータの見積もりを提供するRegNetから得られる。
RegNetは、弱い監視として2Dポーズデータのみを使用する。
内部的には、RegNetは3Dのポーズを予測し、推定カメラパラメータを使って2Dに投影する。
このプロセスにより、RegNetは曖昧な2D-3D関係を確立することができる。
本実験により,リフティングをループ内カメラを用いた教師なしタスクとしてモデル化することにより,未確認データへのより優れた一般化が得られた。
我々はHuman3.6MとMPI-INF-3DHPデータセットの3D HPEの最先端結果を得た。
私たちのコードは以下の通りです。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone [4.648549457266638]
本研究は,教師なし多人数2D-3Dポーズ推定の実現可能性について検討した最初の研究の1つである。
本手法では,各被験者の2次元ポーズを3次元に独立に持ち上げ,それらを共有3次元座標系で組み合わせる。
これにより、ポーズの正確な3D再構成を検索することができる。
論文 参考訳(メタデータ) (2023-09-26T11:42:56Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - ElePose: Unsupervised 3D Human Pose Estimation by Predicting Camera
Elevation and Learning Normalizing Flows on 2D Poses [23.554957518485324]
本研究では、1つの画像から3次元人間のポーズを予測することを学ぶ教師なしのアプローチを提案する。
ランダムなプロジェクションに最も近い3次元ポーズを推定し、2次元ポーズの正規化フローを用いて推定する。
我々は,Human3.6M と MPI-INF-3DHP のベンチマークデータセット上で,最先端の教師なしポーズ推定手法を多くの指標で上回っている。
論文 参考訳(メタデータ) (2021-12-14T01:12:45Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - SPEC: Seeing People in the Wild with an Estimated Camera [64.85791231401684]
1枚の画像から視点カメラを推定する最初の3DHPS方式であるSPECを紹介する。
我々は、視野、カメラピッチ、入力画像のロールを推定するためにニューラルネットワークを訓練する。
次に、カメラキャリブレーションを画像の特徴に合わせてロールする新しいネットワークをトレーニングし、これらを組み合わせて3Dのボディ形状とポーズを復元する。
論文 参考訳(メタデータ) (2021-10-01T19:05:18Z) - SVMA: A GAN-based model for Monocular 3D Human Pose Estimation [0.8379286663107844]
1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。
再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。
Human3.6Mの結果,本手法は最先端の手法を全て上回り,MPI-INF-3DHPの手法は最先端の手法を約15.0%上回ることがわかった。
論文 参考訳(メタデータ) (2021-06-10T09:43:57Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。