論文の概要: 3D Human Mesh Estimation from Single View RGBD
- arxiv url: http://arxiv.org/abs/2508.08178v1
- Date: Mon, 11 Aug 2025 16:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.221118
- Title: 3D Human Mesh Estimation from Single View RGBD
- Title(参考訳): シングルビューRGBDによる3次元メッシュ推定
- Authors: Ozhan Suat, Bedirhan Uguz, Batuhan Karagoz, Muhammed Can Keles, Emre Akbas,
- Abstract要約: 単一のRGBDビューから正確な3次元メッシュ推定法を提案する。
既存のMoCap(Motion Capture)データセットを活用して、データの不足を克服しています。
BEHAVEデータセット上では競争力のある70.9 PVEが得られ、18.4mmのRGBベースの手法よりも優れていた。
- 参考スコア(独自算出の注目度): 7.835177716421862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in 3D human mesh estimation from RGB images; RGBD cameras, offering additional depth data, remain underutilized. In this paper, we present a method for accurate 3D human mesh estimation from a single RGBD view, leveraging the affordability and widespread adoption of RGBD cameras for real-world applications. A fully supervised approach for this problem, requires a dataset with RGBD image and 3D mesh label pairs. However, collecting such a dataset is costly and challenging, hence, existing datasets are small, and limited in pose and shape diversity. To overcome this data scarcity, we leverage existing Motion Capture (MoCap) datasets. We first obtain complete 3D meshes from the body models found in MoCap datasets, and create partial, single-view versions of them by projection to a virtual camera. This simulates the depth data provided by an RGBD camera from a single viewpoint. Then, we train a masked autoencoder to complete the partial, single-view mesh. During inference, our method, which we name as M$^3$ for ``Masked Mesh Modeling'', matches the depth values coming from the sensor to vertices of a template human mesh, which creates a partial, single-view mesh. We effectively recover parts of the 3D human body mesh model that are not visible, resulting in a full body mesh. M$^3$ achieves 16.8 mm and 22.0 mm per-vertex-error (PVE) on the SURREAL and CAPE datasets, respectively; outperforming existing methods that use full-body point clouds as input. We obtain a competitive 70.9 PVE on the BEHAVE dataset, outperforming a recently published RGB based method by 18.4 mm, highlighting the usefulness of depth data. Code will be released.
- Abstract(参考訳): RGB画像からの3Dヒューマンメッシュ推定の大幅な進歩にもかかわらず、追加の深度データを提供するRGBDカメラは未利用のままである。
本稿では,1つのRGBDビューから正確な3次元メッシュ推定手法を提案する。
この問題に対する完全な教師付きアプローチでは、RGBDイメージと3Dメッシュラベルのペアを備えたデータセットが必要である。
しかし、そのようなデータセットの収集は費用がかかり難いため、既存のデータセットは小さく、ポーズや形状の多様性に制限がある。
このデータの不足を克服するために、既存のMoCapデータセットを活用します。
まず、MoCapデータセットにあるボディモデルから完全な3Dメッシュを取得し、仮想カメラに投影することで、部分的な単一ビューバージョンを作成します。
これにより、単一の視点からRGBDカメラが提供する深度データをシミュレートする。
次に、マスク付きオートエンコーダをトレーニングして、部分的な単一ビューメッシュを完成させる。
推論中、我々はM$^3$ for ``Masked Mesh Modeling'と名づけた手法を、センサーからテンプレートメッシュの頂点への深さ値とマッチングし、部分的な単一ビューメッシュを生成する。
我々は、見えない3次元の人体メッシュモデルの一部を効果的に回収し、完全な人体メッシュを生み出す。
M$^3$は、SURREALデータセットとCAPEデータセットでそれぞれ16.8mmと22.0mmの頂点エラー(PVE)を達成する。
BEHAVEデータセット上で競合する70.9 PVEを取得し、最近発表されたRGB法を18.4mmで上回り、深度データの有用性を強調した。
コードはリリースされる。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D Keypoints [8.405938712823563]
Key2Meshは、2次元の人間のポーズキーポイントを入力として取り、対応するボディメッシュを推定するモデルである。
以上の結果から,Key2MeshはPA-MPJPEおよび3DPWデータセットにおいて,他のモデルよりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-04-10T15:34:10Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - MPT: Mesh Pre-Training with Transformers for Human Pose and Mesh
Reconstruction [56.80384196339199]
Mesh Pre-Training(MPT)は、人間のポーズのためのMoCapデータや単一のイメージからのメッシュ再構築などの3Dメッシュデータを活用する、新たな事前トレーニングフレームワークである。
MPTにより、トランスフォーマーモデルは、実際の画像から人間のメッシュ再構築のゼロショット機能を持つことができる。
論文 参考訳(メタデータ) (2022-11-24T00:02:13Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - PeeledHuman: Robust Shape Representation for Textured 3D Human Body
Reconstruction [7.582064461041252]
PeeledHumanは、人間の体を2DのPeeled DepthとRGBマップのセットとしてエンコードする。
我々は,PelGANを3D Chamfer損失と他の2D損失を用いて訓練し,画素ごとの深度値と頂点毎のRGBフィールドを生成する。
単純な非パラメトリック解では、生成されたピールドデプス写像は3次元空間に逆投影され、完全なテクスチャ化された3次元形状が得られる。
論文 参考訳(メタデータ) (2020-02-16T20:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。