論文の概要: Real-time RGBD-based Extended Body Pose Estimation
- arxiv url: http://arxiv.org/abs/2103.03663v1
- Date: Fri, 5 Mar 2021 13:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:50:17.909919
- Title: Real-time RGBD-based Extended Body Pose Estimation
- Title(参考訳): 実時間rgbdベース拡張体姿勢推定
- Authors: Renat Bashirov, Anastasia Ianina, Karim Iskakov, Yevgeniy Kononenko,
Valeriya Strizhkova, Victor Lempitsky, Alexander Vakhitov
- Abstract要約: 3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。
パラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を表現として使用する。
身体のポーズと表情パラメータの推定子を訓練する。
- 参考スコア(独自算出の注目度): 57.61868412206493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a system for real-time RGBD-based estimation of 3D human pose. We
use parametric 3D deformable human mesh model (SMPL-X) as a representation and
focus on the real-time estimation of parameters for the body pose, hands pose
and facial expression from Kinect Azure RGB-D camera. We train estimators of
body pose and facial expression parameters. Both estimators use previously
published landmark extractors as input and custom annotated datasets for
supervision, while hand pose is estimated directly by a previously published
method. We combine the predictions of those estimators into a temporally-smooth
human pose. We train the facial expression extractor on a large talking face
dataset, which we annotate with facial expression parameters. For the body pose
we collect and annotate a dataset of 56 people captured from a rig of 5 Kinect
Azure RGB-D cameras and use it together with a large motion capture AMASS
dataset. Our RGB-D body pose model outperforms the state-of-the-art RGB-only
methods and works on the same level of accuracy compared to a slower RGB-D
optimization-based solution. The combined system runs at 30 FPS on a server
with a single GPU. The code will be available at
https://saic-violet.github.io/rgbd-kinect-pose
- Abstract(参考訳): 3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。
本研究では,Kinect Azure RGB-Dカメラを用いたパラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を用いて,身体ポーズ,手ポーズ,表情のパラメータのリアルタイム推定に焦点をあてる。
身体のポーズと表情パラメータの推定子を訓練する。
どちらの推定器も、事前に公開されたランドマーク抽出器をインプットおよびカスタムアノテーション付きデータセットとして使用し、ハンドポーズは、以前に公開された方法で直接推定する。
我々はこれらの推定器の予測を時間的に滑らかな人間のポーズと組み合わせる。
我々は、顔表情パラメータを付加した大きな話し顔データセット上で、表情抽出器を訓練する。
ボディポーズでは、5台のKinect Azure RGB-Dカメラから撮影した56人のデータセットを収集し、アノテートし、大きなモーションキャプチャAMASSデータセットと一緒に使用します。
当社のRGB-Dボディポーズモデルは、最先端のRGBのみの方法よりも優れており、遅いRGB-D最適化ベースのソリューションと同じレベルの精度で動作します。
組み合わせたシステムは、1つのgpuでサーバー上で30fpsで動作します。
コードはhttps://saic-violet.github.io/rgbd-kinect-poseで入手できる。
関連論文リスト
- CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans [5.047302480095444]
モノクラーヒューマンポース推定は、カメラが捉えた単一の2D画像から人間の関節の3D位置を決定することを目的としている。
本研究では,近似に頼らず,全視点カメラモデルの利用を提唱する。
本稿では,プライスリフタネットワーク(LiftNet)とプライスレグレシタネットワーク(RegNet)の2つの主要コンポーネントからなるEPOCHフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-06-28T08:16:54Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Lifting Monocular Events to 3D Human Poses [22.699272716854967]
本稿では,非同期イベントの単一ストリームを入力として用いる新しい3次元ポーズ推定手法を提案する。
単一のイベントストリームから3D人間のポーズを学習する最初の方法を提案します。
実験により,本手法は,標準RGBとイベントベースビジョン間の性能ギャップを狭め,精度が向上することを示した。
論文 参考訳(メタデータ) (2021-04-21T16:07:12Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Monocular Expressive Body Regression through Body-Driven Attention [68.63766976089842]
RGB画像からSMPL-Xフォーマットで体、顔、手を回帰するExPoseを導入する。
手と顔は体よりずっと小さく 画像のピクセルはごくわずかです
身体推定が顔と手の位置を合理的に決定するのを観察する。
論文 参考訳(メタデータ) (2020-08-20T16:33:47Z) - RGBD-Dog: Predicting Canine Pose from RGBD Sensors [25.747221533627464]
RGBD画像から3次元犬のポーズ推定の問題に焦点をあてる。
このデータから合成RGBD画像のデータセットを生成する。
積み重ねられた砂時計ネットワークは、3D関節の場所を予測するために訓練される。
論文 参考訳(メタデータ) (2020-04-16T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。