論文の概要: Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution
- arxiv url: http://arxiv.org/abs/2011.00184v1
- Date: Sat, 31 Oct 2020 04:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 04:55:19.214288
- Title: Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution
- Title(参考訳): 重度咬合の探索:ゲーテッド・コンボリューションを用いたマルチパーソン3次元電位推定
- Authors: Renshu Gu, Gaoang Wang, Jenq-Neng Hwang
- Abstract要約: 本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。
また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。
提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
- 参考スコア(独自算出の注目度): 34.301501457959056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation (HPE) is crucial in many fields, such as human
behavior analysis, augmented reality/virtual reality (AR/VR) applications, and
self-driving industry. Videos that contain multiple potentially occluded people
captured from freely moving monocular cameras are very common in real-world
scenarios, while 3D HPE for such scenarios is quite challenging, partially
because there is a lack of such data with accurate 3D ground truth labels in
existing datasets. In this paper, we propose a temporal regression network with
a gated convolution module to transform 2D joints to 3D and recover the missing
occluded joints in the meantime. A simple yet effective localization approach
is further conducted to transform the normalized pose to the global trajectory.
To verify the effectiveness of our approach, we also collect a new moving
camera multi-human (MMHuman) dataset that includes multiple people with heavy
occlusion captured by moving cameras. The 3D ground truth joints are provided
by accurate motion capture (MoCap) system. From the experiments on
static-camera based Human3.6M data and our own collected moving-camera based
data, we show that our proposed method outperforms most state-of-the-art
2D-to-3D pose estimation methods, especially for the scenarios with heavy
occlusions.
- Abstract(参考訳): 3次元ポーズ推定(HPE)は、人間の行動分析、拡張現実/仮想現実(AR/VR)アプリケーション、自動運転産業など、多くの分野で重要である。
自由に動く単眼カメラから撮影された複数の被写体を含むビデオは、現実のシナリオではよく見られるが、3d hpeは、既存のデータセットに正確な3dグランド真理ラベルがあるようなデータが欠けているため、非常に難しい。
本稿では、2次元関節を3Dに変換し、その間に欠損した関節を復元するゲート畳み込みモジュールを備えた時間回帰ネットワークを提案する。
さらに、正規化されたポーズをグローバルな軌道に変換するために、単純で効果的な局所化アプローチが実施される。
また、本手法の有効性を検証するため、移動カメラによって捉えられた重閉塞者を含む新しい移動カメラマルチヒューマン(MMHuman)データセットも収集した。
3Dグラウンドの真理関節は、正確なモーションキャプチャ(MoCap)システムによって提供される。
スタティックカメラを用いたHuman3.6Mデータと,我々の収集した移動カメラに基づくデータから,提案手法は最先端の2D-to-3Dポーズ推定法よりも優れていることを示す。
関連論文リスト
- Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。