Fugu-MT 論文翻訳(概要): Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot

論文の概要: Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot

arxiv url: http://arxiv.org/abs/2402.14654v1
Date: Thu, 22 Feb 2024 16:05:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 14:46:39.903043
Title: Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot
Title（参考訳）: マルチHMR:シングルショットでの多人数人体メッシュ回復
Authors: Fabien Baradel, Matthieu Armando, Salma Galaaoui, Romain Br\'egier, Philippe Weinzaepfel, Gr\'egory Rogez, Thomas Lucas
Abstract要約: 単一のRGB画像からマルチパーソンな3次元メッシュリカバリのための強力なシングルショットモデルであるMulti-HMRを提案する。 SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。このデータセットをトレーニングに組み込むことで、特に手による予測をさらに強化できることが示される。
参考スコア（独自算出の注目度）: 15.975753370100051
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Multi-HMR, a strong single-shot model for multi-person 3D human mesh recovery from a single RGB image. Predictions encompass the whole body, i.e, including hands and facial expressions, using the SMPL-X parametric model and spatial location in the camera coordinate system. Our model detects people by predicting coarse 2D heatmaps of person centers, using features produced by a standard Vision Transformer (ViT) backbone. It then predicts their whole-body pose, shape and spatial location using a new cross-attention module called the Human Prediction Head (HPH), with one query per detected center token, attending to the entire set of features. As direct prediction of SMPL-X parameters yields suboptimal results, we introduce CUFFS; the Close-Up Frames of Full-Body Subjects dataset, containing humans close to the camera with diverse hand poses. We show that incorporating this dataset into training further enhances predictions, particularly for hands, enabling us to achieve state-of-the-art performance. Multi-HMR also optionally accounts for camera intrinsics, if available, by encoding camera ray directions for each image token. This simple design achieves strong performance on whole-body and body-only benchmarks simultaneously. We train models with various backbone sizes and input resolutions. In particular, using a ViT-S backbone and $448\times448$ input images already yields a fast and competitive model with respect to state-of-the-art methods, while considering larger models and higher resolutions further improve performance.
Abstract（参考訳）: 単一のRGB画像からマルチパーソンな3次元メッシュリカバリのための強力なシングルショットモデルであるMulti-HMRを提案する。予測は、カメラ座標系におけるSMPL-Xパラメトリックモデルと空間的位置を用いて、手と表情を含む全身を包含する。本モデルは、標準視覚トランスフォーマー(vit)バックボーンによって生成された特徴を用いて、人中心の粗い2dヒートマップを予測して人を検出する。次に、人間予測ヘッド(human prediction head, hph)と呼ばれる新しいクロスアテンションモジュールを使用して、全身のポーズ、形状、空間の位置を予測する。 smpl-xパラメータの直接予測は、サブオプティカルな結果をもたらすため、多彩な手ポーズを持つカメラに近い人間を含むフルボディの被験者データセットのクローズアップフレームであるcuffsを導入する。このデータセットをトレーニングに組み込むことで、特に手にとっての予測をさらに強化し、最先端のパフォーマンスを実現することができることを示す。マルチhmrはまた、各画像トークンのカメラ線方向をエンコードすることで、可能であればカメラ固有の要素を任意に記述する。このシンプルな設計は、ボディとボディのみのベンチマークを同時に実施する。バックボーンサイズと入力解像度の異なるモデルをトレーニングします。特に、ViT-Sバックボーンと448\times448$の入力画像を使用することで、最先端の手法に関して高速で競争力のあるモデルが得られる。

関連論文リスト

CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。 pGTの精度を向上させる2つの貢献をしている。
論文参考訳（メタデータ） (2024-11-12T19:12:12Z)
Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。これらの情報の正確な注釈を得るのは難しい。完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。 CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-03-19T04:54:59Z)
MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction [12.942635715952525]
複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。以前の研究では、複数の視点の下で自己排除によって生じる課題を見落としていた。複数のカメラビューから3次元人体を再構築する手法を提案する。
論文参考訳（メタデータ） (2024-03-08T05:03:25Z)
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。 PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文参考訳（メタデータ） (2023-11-20T18:57:55Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2021-10-14T17:40:45Z)
Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-08-17T17:31:24Z)
VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-08-05T08:35:44Z)
Monocular Expressive Body Regression through Body-Driven Attention [68.63766976089842]
RGB画像からSMPL-Xフォーマットで体、顔、手を回帰するExPoseを導入する。手と顔は体よりずっと小さく画像のピクセルはごくわずかです身体推定が顔と手の位置を合理的に決定するのを観察する。
論文参考訳（メタデータ） (2020-08-20T16:33:47Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。