論文の概要: Scene-aware Egocentric 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2212.11684v1
- Date: Tue, 20 Dec 2022 21:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:54:19.680729
- Title: Scene-aware Egocentric 3D Human Pose Estimation
- Title(参考訳): 情景認識エゴセントリックな3次元ポーズ推定
- Authors: Jian Wang, Lingjie Liu, Weipeng Xu, Kripasindhu Sarkar, Diogo Luvizon,
Christian Theobalt
- Abstract要約: 頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
- 参考スコア(独自算出の注目度): 72.36132924512299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric 3D human pose estimation with a single head-mounted fisheye camera
has recently attracted attention due to its numerous applications in virtual
and augmented reality. Existing methods still struggle in challenging poses
where the human body is highly occluded or is closely interacting with the
scene. To address this issue, we propose a scene-aware egocentric pose
estimation method that guides the prediction of the egocentric pose with scene
constraints. To this end, we propose an egocentric depth estimation network to
predict the scene depth map from a wide-view egocentric fisheye camera while
mitigating the occlusion of the human body with a depth-inpainting network.
Next, we propose a scene-aware pose estimation network that projects the 2D
image features and estimated depth map of the scene into a voxel space and
regresses the 3D pose with a V2V network. The voxel-based feature
representation provides the direct geometric connection between 2D image
features and scene geometry, and further facilitates the V2V network to
constrain the predicted pose based on the estimated scene geometry. To enable
the training of the aforementioned networks, we also generated a synthetic
dataset, called EgoGTA, and an in-the-wild dataset based on EgoPW, called
EgoPW-Scene. The experimental results of our new evaluation sequences show that
the predicted 3D egocentric poses are accurate and physically plausible in
terms of human-scene interaction, demonstrating that our method outperforms the
state-of-the-art methods both quantitatively and qualitatively.
- Abstract(参考訳): 頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
この問題に対処するために,シーン制約を伴う自我中心姿勢の予測を導く,情景対応自我中心姿勢推定手法を提案する。
そこで本研究では,広視野の魚眼カメラからシーン深度マップを推定するエゴセントリック深度推定ネットワークを提案する。
次に,2次元画像の特徴と推定深度マップをボクセル空間に投影し,V2Vネットワークで3次元ポーズを回帰するシーン対応ポーズ推定ネットワークを提案する。
ボクセルに基づく特徴表現は、2次元画像特徴とシーン幾何学との間の直接幾何学的接続を提供し、さらにV2Vネットワークにより推定されたシーン幾何学に基づいて予測されたポーズを制約する。
上記のネットワークのトレーニングを可能にするために、egogtaと呼ばれる合成データセットと、egopw-sceneと呼ばれるegopwベースのインザワイルドデータセットも作成しました。
新しい評価シーケンスの実験結果から,予測された3次元自我中心のポーズは人間とシーンの相互作用において正確かつ物理的に妥当であることが示され,本手法が最先端の手法よりも定量的かつ質的に優れていることが示された。
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Learning to Estimate 3D Human Pose from Point Cloud [13.27496851711973]
本稿では,複雑な人体構造物の表面をモデル化するための入力データとして,点雲データを用いた3次元ポーズ推定のための深層人体ポーズネットワークを提案する。
2つの公開データセットに対する実験により,従来の最先端手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2022-12-25T14:22:01Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - Estimating Egocentric 3D Human Pose in the Wild with External Weak
Supervision [72.36132924512299]
本稿では,大規模な自己中心型データセットでトレーニング可能な,新たな自己中心型ポーズ推定手法を提案する。
本研究では,事前学習された外部視点のポーズ推定モデルにより抽出された高品質な特徴を用いて,エゴセントリックな特徴を監督する新しい学習戦略を提案する。
実験により,本手法は,1つの画像から正確な3Dポーズを予測し,定量的,定性的に,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-01-20T00:45:13Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。