論文の概要: Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats
- arxiv url: http://arxiv.org/abs/2212.14474v1
- Date: Thu, 29 Dec 2022 22:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:47:37.340796
- Title: Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats
- Title(参考訳): 幾何学的オートエンコーダを用いたデータセットから骨格間橋渡しによる3次元人物位置推定
- Authors: Istv\'an S\'ar\'andi, Alexander Hermans, Bastian Leibe
- Abstract要約: 本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
- 参考スコア(独自算出の注目度): 80.12253291709673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based 3D human pose estimation performs best when trained on
large amounts of labeled data, making combined learning from many datasets an
important research direction. One obstacle to this endeavor are the different
skeleton formats provided by different datasets, i.e., they do not label the
same set of anatomical landmarks. There is little prior research on how to best
supervise one model with such discrepant labels. We show that simply using
separate output heads for different skeletons results in inconsistent depth
estimates and insufficient information sharing across skeletons. As a remedy,
we propose a novel affine-combining autoencoder (ACAE) method to perform
dimensionality reduction on the number of landmarks. The discovered latent 3D
points capture the redundancy among skeletons, enabling enhanced information
sharing when used for consistency regularization. Our approach scales to an
extreme multi-dataset regime, where we use 28 3D human pose datasets to
supervise one model, which outperforms prior work on a range of benchmarks,
including the challenging 3D Poses in the Wild (3DPW) dataset. Our code and
models are available for research purposes.
- Abstract(参考訳): ディープラーニングに基づく人間の3Dポーズ推定は、大量のラベル付きデータに基づいてトレーニングされた場合、最もよく機能する。
この取り組みの障害のひとつは、異なるデータセットによって提供される異なるスケルトンフォーマット、すなわち、同じ解剖学的ランドマークのセットをラベル付けしないことだ。
このような不明瞭なラベルで1つのモデルを最善に監督する方法に関する先行研究はほとんどない。
異なる骨格に別個の出力ヘッドを用いるだけで、不整合深さ推定と骨格間での情報共有が不十分になることを示す。
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
発見された潜在3Dポイントは、スケルトン間の冗長性を捉え、一貫性の正則化に使用すると情報共有が強化される。
私たちのアプローチは、極端なマルチデータセットのレジームにスケールし、28の3d人間のポーズデータセットを使用して1つのモデルを監督します。
私たちのコードとモデルは研究目的で利用可能です。
関連論文リスト
- Learning Localization of Body and Finger Animation Skeleton Joints on Three-Dimensional Models of Human Bodies [0.0]
本研究は,人体の3次元モデル内での人体と指のアニメーションの骨格関節の位置決め問題に対する,そのような解決法を提案する。
提案手法を最先端技術と比較することにより,より単純なアーキテクチャで極めて優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-11T13:16:02Z) - Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。