論文の概要: MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D Keypoints
- arxiv url: http://arxiv.org/abs/2404.07094v1
- Date: Wed, 10 Apr 2024 15:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:51:53.787536
- Title: MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D Keypoints
- Title(参考訳): MoCap-to-Visual Domain Adaptation for Efficient Human Mesh Estimation from 2D Keypoints
- Authors: Bedirhan Uguz, Ozhan Suat, Batuhan Karagoz, Emre Akbas,
- Abstract要約: Key2Meshは、2次元の人間のポーズキーポイントを入力として取り、対応するボディメッシュを推定するモデルである。
以上の結果から,Key2MeshはPA-MPJPEおよび3DPWデータセットにおいて,他のモデルよりも優れた性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 8.405938712823563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Key2Mesh, a model that takes a set of 2D human pose keypoints as input and estimates the corresponding body mesh. Since this process does not involve any visual (i.e. RGB image) data, the model can be trained on large-scale motion capture (MoCap) datasets, thereby overcoming the scarcity of image datasets with 3D labels. To enable the model's application on RGB images, we first run an off-the-shelf 2D pose estimator to obtain the 2D keypoints, and then feed these 2D keypoints to Key2Mesh. To improve the performance of our model on RGB images, we apply an adversarial domain adaptation (DA) method to bridge the gap between the MoCap and visual domains. Crucially, our DA method does not require 3D labels for visual data, which enables adaptation to target sets without the need for costly labels. We evaluate Key2Mesh for the task of estimating 3D human meshes from 2D keypoints, in the absence of RGB and mesh label pairs. Our results on widely used H3.6M and 3DPW datasets show that Key2Mesh sets the new state-of-the-art by outperforming other models in PA-MPJPE for both datasets, and in MPJPE and PVE for the 3DPW dataset. Thanks to our model's simple architecture, it operates at least 12x faster than the prior state-of-the-art model, LGD. Additional qualitative samples and code are available on the project website: https://key2mesh.github.io/.
- Abstract(参考訳): 本稿では、2次元人間のポーズキーポイントを入力とし、対応するボディーメッシュを推定するKey2Meshについて述べる。
このプロセスには視覚的(すなわちRGBイメージ)なデータが含まれないので、大規模なモーションキャプチャ(MoCap)データセットでトレーニングすることが可能で、3Dラベルによる画像データセットの不足を克服することができる。
RGB画像へのモデルの適用を可能にするために、まず市販の2Dポーズ推定器を実行して、2Dキーポイントを取得し、2DキーポイントをKey2Meshに供給する。
RGB画像上でのモデルの性能向上のために,MoCapと視覚領域のギャップを埋めるために,逆向き領域適応法(DA)を適用した。
重要なことは、我々のDA法は視覚データに3Dラベルを必要としないため、コストのかかるラベルを必要とせずにターゲットセットへの適応が可能である。
RGBとメッシュラベルのペアが存在しない2次元のキーポイントから3次元のメッシュを推定する作業としてKey2Meshを評価した。
広く使われているH3.6Mデータセットと3DPWデータセットの結果は、Key2MeshがPA-MPJPEおよび3DPWデータセットのMPJPEおよびPVEにおいて、他のモデルよりも優れていることを示している。
我々のモデルのシンプルなアーキテクチャのおかげで、従来の最先端モデルであるLGDよりも少なくとも12倍高速に動作します。
その他の定性的なサンプルとコードはプロジェクトのWebサイト(https://key2mesh.github.io/)で公開されている。
関連論文リスト
- CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features [64.39691149255717]
3次元形状のキーポイント検出には意味的および幾何学的認識が必要である。
我々はキーポイント候補最適化モジュールを用いて,その形状上のキーポイントの平均分布を一致させる。
結果として得られたアプローチは、KeyPointNetデータセットで数ショットのキーポイント検出のための新しい状態を実現する。
論文 参考訳(メタデータ) (2023-11-29T21:58:41Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Optimal and Robust Category-level Perception: Object Pose and Shape
Estimation from 2D and 3D Semantic Keypoints [24.232254155643574]
与えられたカテゴリ(例えば車)のオブジェクトを撮影する2Dまたは3Dセンサデータを取得し、オブジェクトの3Dポーズと形状を再構築する必要がある問題を考える。
最初の貢献は PACE3D* と PACE2D* を開発することである。
2つ目のコントリビューションは、PACE3D#とPACE2D#という名前の、両方のソルバの開発バージョンです。
論文 参考訳(メタデータ) (2022-06-24T21:58:00Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。