論文の概要: VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data
- arxiv url: http://arxiv.org/abs/2207.09949v1
- Date: Wed, 20 Jul 2022 14:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:48:46.976077
- Title: VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data
- Title(参考訳): VirtualPose: 仮想データから汎用的な3次元人文モデルを学ぶ
- Authors: Jiajun Su, Chunyu Wang, Xiaoxuan Ma, Wenjun Zeng, and Yizhou Wang
- Abstract要約: このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 69.64723752430244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While monocular 3D pose estimation seems to have achieved very accurate
results on the public datasets, their generalization ability is largely
overlooked. In this work, we perform a systematic evaluation of the existing
methods and find that they get notably larger errors when tested on different
cameras, human poses and appearance. To address the problem, we introduce
VirtualPose, a two-stage learning framework to exploit the hidden "free lunch"
specific to this task, i.e. generating infinite number of poses and cameras for
training models at no cost. To that end, the first stage transforms images to
abstract geometry representations (AGR), and then the second maps them to 3D
poses. It addresses the generalization issue from two aspects: (1) the first
stage can be trained on diverse 2D datasets to reduce the risk of over-fitting
to limited appearance; (2) the second stage can be trained on diverse AGR
synthesized from a large number of virtual cameras and poses. It outperforms
the SOTA methods without using any paired images and 3D poses from the
benchmarks, which paves the way for practical applications. Code is available
at https://github.com/wkom/VirtualPose.
- Abstract(参考訳): モノラルな3Dポーズ推定は、公開データセット上で非常に正確な結果を得たように見えるが、その一般化能力はほとんど見落としている。
本研究では,既存の手法を体系的に評価し,異なるカメラ,人間のポーズ,外観でテストした場合に顕著に大きな誤差が生じることを示す。
この問題に対処するため,本課題に特有の隠れた「フリーランチ」,すなわちトレーニングモデルのための無限個のポーズやカメラを無償で生成する2段階学習フレームワークであるvirtualposeを紹介する。
その目的のために、第1段階は画像を抽象幾何学表現(AGR)に変換し、第2段階はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
ペアイメージやベンチマークからの3dポーズを使わずにsotaメソッドを上回り、実用的なアプリケーションへの道を開く。
コードはhttps://github.com/wkom/virtualposeで入手できる。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Implicit Learning of Scene Geometry from Poses for Global Localization [7.077874294016776]
グローバル・ビジュアル・ローカライゼーション(Global visual localization)は、カメラの絶対的なポーズを1つの画像を用いて推定する。
既存の多くのアプローチでは、入力画像から直接6 DoFのポーズを学習する。
本稿では,これらの最小限のラベルを用いてシーンの3次元形状を学習することを提案する。
論文 参考訳(メタデータ) (2023-12-04T16:51:23Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - CameraPose: Weakly-Supervised Monocular 3D Human Pose Estimation by
Leveraging In-the-wild 2D Annotations [25.05308239278207]
一つの画像から3次元のポーズ推定を行うための弱教師付きフレームワークであるCameraPoseを提案する。
カメラパラメータブランチを追加することで、Wildの2Dアノテーションをパイプラインに投入して、トレーニングの多様性を高めることができます。
また、2次元ポーズ推定器によって抽出されたノイズの多い2Dキーポイントの品質をさらに向上させるため、信頼誘導損失を有する改良型ネットワークモジュールも導入する。
論文 参考訳(メタデータ) (2023-01-08T05:07:41Z) - ElePose: Unsupervised 3D Human Pose Estimation by Predicting Camera
Elevation and Learning Normalizing Flows on 2D Poses [23.554957518485324]
本研究では、1つの画像から3次元人間のポーズを予測することを学ぶ教師なしのアプローチを提案する。
ランダムなプロジェクションに最も近い3次元ポーズを推定し、2次元ポーズの正規化フローを用いて推定する。
我々は,Human3.6M と MPI-INF-3DHP のベンチマークデータセット上で,最先端の教師なしポーズ推定手法を多くの指標で上回っている。
論文 参考訳(メタデータ) (2021-12-14T01:12:45Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。