論文の概要: Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot
- arxiv url: http://arxiv.org/abs/2402.14654v2
- Date: Wed, 24 Jul 2024 09:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:10:54.930008
- Title: Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot
- Title(参考訳): マルチHMR:シングルショットでの多人数人体メッシュ回復
- Authors: Fabien Baradel, Matthieu Armando, Salma Galaaoui, Romain Brégier, Philippe Weinzaepfel, Grégory Rogez, Thomas Lucas,
- Abstract要約: 単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
- 参考スコア(独自算出の注目度): 22.848563931757962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Multi-HMR, a strong sigle-shot model for multi-person 3D human mesh recovery from a single RGB image. Predictions encompass the whole body, i.e., including hands and facial expressions, using the SMPL-X parametric model and 3D location in the camera coordinate system. Our model detects people by predicting coarse 2D heatmaps of person locations, using features produced by a standard Vision Transformer (ViT) backbone. It then predicts their whole-body pose, shape and 3D location using a new cross-attention module called the Human Prediction Head (HPH), with one query attending to the entire set of features for each detected person. As direct prediction of fine-grained hands and facial poses in a single shot, i.e., without relying on explicit crops around body parts, is hard to learn from existing data, we introduce CUFFS, the Close-Up Frames of Full-Body Subjects dataset, containing humans close to the camera with diverse hand poses. We show that incorporating it into the training data further enhances predictions, particularly for hands. Multi-HMR also optionally accounts for camera intrinsics, if available, by encoding camera ray directions for each image token. This simple design achieves strong performance on whole-body and body-only benchmarks simultaneously: a ViT-S backbone on $448{\times}448$ images already yields a fast and competitive model, while larger models and higher resolutions obtain state-of-the-art results.
- Abstract(参考訳): 単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
予測は、カメラ座標系におけるSMPL-Xパラメトリックモデルと3D位置を用いて、手と表情を含む全身を包含する。
我々のモデルは、標準的なビジョントランスフォーマー(ViT)バックボーンによって生成された特徴を用いて、人の位置の粗い2Dヒートマップを予測することによって人を検出する。
そして、Human Prediction Head(HPH)と呼ばれる新しいクロスアテンションモジュールを使って、ボディ全体のポーズ、形状、そして3D位置を予測する。
片手でのきめ細かい手と顔のポーズの直接予測、つまり、身体部分の周囲の明示的な作物を頼らずに、既存のデータから学ぶことは困難であるため、様々な手ポーズを持つカメラに近い人間を含むフルボディ対象データセットのクローズアップフレームであるCUFFSを導入する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
マルチHMRはまた、利用可能な場合、各画像トークンに対してカメラ線方向を符号化することで、カメラ固有のことを任意に説明します。
448{\times}448$イメージ上のViT-Sバックボーンは、すでに高速で競争力のあるモデルを提供しており、大きなモデルと高解像度のモデルでは、最先端の結果が得られる。
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction [12.942635715952525]
複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
以前の研究では、複数の視点の下で自己排除によって生じる課題を見落としていた。
複数のカメラビューから3次元人体を再構築する手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T05:03:25Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Monocular Expressive Body Regression through Body-Driven Attention [68.63766976089842]
RGB画像からSMPL-Xフォーマットで体、顔、手を回帰するExPoseを導入する。
手と顔は体よりずっと小さく 画像のピクセルはごくわずかです
身体推定が顔と手の位置を合理的に決定するのを観察する。
論文 参考訳(メタデータ) (2020-08-20T16:33:47Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。