論文の概要: Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot
- arxiv url: http://arxiv.org/abs/2402.14654v1
- Date: Thu, 22 Feb 2024 16:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:46:39.903043
- Title: Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot
- Title(参考訳): マルチHMR:シングルショットでの多人数人体メッシュ回復
- Authors: Fabien Baradel, Matthieu Armando, Salma Galaaoui, Romain Br\'egier,
Philippe Weinzaepfel, Gr\'egory Rogez, Thomas Lucas
- Abstract要約: 単一のRGB画像からマルチパーソンな3次元メッシュリカバリのための強力なシングルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
このデータセットをトレーニングに組み込むことで、特に手による予測をさらに強化できることが示される。
- 参考スコア(独自算出の注目度): 15.975753370100051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Multi-HMR, a strong single-shot model for multi-person 3D human
mesh recovery from a single RGB image. Predictions encompass the whole body,
i.e, including hands and facial expressions, using the SMPL-X parametric model
and spatial location in the camera coordinate system. Our model detects people
by predicting coarse 2D heatmaps of person centers, using features produced by
a standard Vision Transformer (ViT) backbone. It then predicts their whole-body
pose, shape and spatial location using a new cross-attention module called the
Human Prediction Head (HPH), with one query per detected center token,
attending to the entire set of features. As direct prediction of SMPL-X
parameters yields suboptimal results, we introduce CUFFS; the Close-Up Frames
of Full-Body Subjects dataset, containing humans close to the camera with
diverse hand poses. We show that incorporating this dataset into training
further enhances predictions, particularly for hands, enabling us to achieve
state-of-the-art performance. Multi-HMR also optionally accounts for camera
intrinsics, if available, by encoding camera ray directions for each image
token. This simple design achieves strong performance on whole-body and
body-only benchmarks simultaneously. We train models with various backbone
sizes and input resolutions. In particular, using a ViT-S backbone and
$448\times448$ input images already yields a fast and competitive model with
respect to state-of-the-art methods, while considering larger models and higher
resolutions further improve performance.
- Abstract(参考訳): 単一のRGB画像からマルチパーソンな3次元メッシュリカバリのための強力なシングルショットモデルであるMulti-HMRを提案する。
予測は、カメラ座標系におけるSMPL-Xパラメトリックモデルと空間的位置を用いて、手と表情を含む全身を包含する。
本モデルは、標準視覚トランスフォーマー(vit)バックボーンによって生成された特徴を用いて、人中心の粗い2dヒートマップを予測して人を検出する。
次に、人間予測ヘッド(human prediction head, hph)と呼ばれる新しいクロスアテンションモジュールを使用して、全身のポーズ、形状、空間の位置を予測する。
smpl-xパラメータの直接予測は、サブオプティカルな結果をもたらすため、多彩な手ポーズを持つカメラに近い人間を含むフルボディの被験者データセットのクローズアップフレームであるcuffsを導入する。
このデータセットをトレーニングに組み込むことで、特に手にとっての予測をさらに強化し、最先端のパフォーマンスを実現することができることを示す。
マルチhmrはまた、各画像トークンのカメラ線方向をエンコードすることで、可能であればカメラ固有の要素を任意に記述する。
このシンプルな設計は、ボディとボディのみのベンチマークを同時に実施する。
バックボーンサイズと入力解像度の異なるモデルをトレーニングします。
特に、ViT-Sバックボーンと448\times448$の入力画像を使用することで、最先端の手法に関して高速で競争力のあるモデルが得られる。
関連論文リスト
- MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body
Reconstruction [13.500077704418764]
複数のカメラビューから3次元人体を再構成する手法を提案する。
提案手法は,2つの公開データセット上に人体を再構築する際の優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-08T05:03:25Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Real-time RGBD-based Extended Body Pose Estimation [57.61868412206493]
3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。
パラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を表現として使用する。
身体のポーズと表情パラメータの推定子を訓練する。
論文 参考訳(メタデータ) (2021-03-05T13:37:50Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。