論文の概要: V-VIPE: Variational View Invariant Pose Embedding
- arxiv url: http://arxiv.org/abs/2407.07092v1
- Date: Tue, 9 Jul 2024 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 16:57:59.103505
- Title: V-VIPE: Variational View Invariant Pose Embedding
- Title(参考訳): V-VIPE: 変分ビュー不変ポス埋め込み
- Authors: Mara Levy, Abhinav Shrivastava,
- Abstract要約: 変分オートエンコーダ(VAE)を用いて、標準座標空間における3次元ポーズを表す埋め込みを求める。
これらの埋め込みからデコーダを用いて3Dのポーズを推定できるだけでなく、目に見えない3Dのポーズを生成することもできる。
- 参考スコア(独自算出の注目度): 41.505641100024064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to represent three dimensional (3D) human pose given a two dimensional (2D) image of a person, is a challenging problem. In order to make the problem less ambiguous it has become common practice to estimate 3D pose in the camera coordinate space. However, this makes the task of comparing two 3D poses difficult. In this paper, we address this challenge by separating the problem of estimating 3D pose from 2D images into two steps. We use a variational autoencoder (VAE) to find an embedding that represents 3D poses in canonical coordinate space. We refer to this embedding as variational view-invariant pose embedding V-VIPE. Using V-VIPE we can encode 2D and 3D poses and use the embedding for downstream tasks, like retrieval and classification. We can estimate 3D poses from these embeddings using the decoder as well as generate unseen 3D poses. The variability of our encoding allows it to generalize well to unseen camera views when mapping from 2D space. To the best of our knowledge, V-VIPE is the only representation to offer this diversity of applications. Code and more information can be found at https://v-vipe.github.io/.
- Abstract(参考訳): 人の2次元(2次元)画像を与えられた3次元(3次元)人間のポーズを表現することを学ぶことは、難しい問題である。
問題をより曖昧にするためには、カメラ座標空間における3次元ポーズを推定することが一般的になっている。
しかし、これは2つの3Dポーズを比較することが困難である。
本稿では,2次元画像から3次元ポーズを推定する問題を2段階に分けることで,この問題に対処する。
変分オートエンコーダ(VAE)を用いて、標準座標空間における3次元ポーズを表す埋め込みを求める。
この埋め込みを、可変ビュー不変ポーズ埋め込みV-VIPEと呼ぶ。
V-VIPEを使えば、2Dと3Dのポーズをエンコードして、検索や分類といった下流タスクに埋め込みを使用できます。
これらの埋め込みからデコーダを用いて3Dのポーズを推定できるだけでなく、目に見えない3Dのポーズを生成することもできる。
符号化の可変性により、2次元空間からのマッピングでは見えないカメラビューによく対応できる。
私たちの知る限りでは、V-VIPEは、この多様なアプリケーションを提供する唯一の表現です。
コードと詳細はhttps://v-vipe.github.io/.com/で確認できる。
関連論文リスト
- Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone [4.648549457266638]
本研究は,教師なし多人数2D-3Dポーズ推定の実現可能性について検討した最初の研究の1つである。
本手法では,各被験者の2次元ポーズを3次元に独立に持ち上げ,それらを共有3次元座標系で組み合わせる。
これにより、ポーズの正確な3D再構成を検索することができる。
論文 参考訳(メタデータ) (2023-09-26T11:42:56Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - Lifting 2D Human Pose to 3D with Domain Adapted 3D Body Concept [49.49032810966848]
既存の3Dポーズ推定は,1)2Dデータと3Dデータとのあいまいさ,2)よくラベル付けされた2D-3Dポーズペアの欠如に悩まされている。
本研究では,人体の3次元概念を学習するためにラベル付き3次元ポーズを利用する新しい枠組みを提案する。
2つのドメインに適応することにより、3Dポーズから学んだ身体知識を2Dポーズに適用し、2Dポーズエンコーダを誘導し、ポーズリフトに埋め込まれた情報的な3D"想像"を生成する。
論文 参考訳(メタデータ) (2021-11-23T16:02:12Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z) - Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS [13.191601826570786]
マルチキャリブレーションカメラビューから複数人の3Dポーズを推定する新しい手法を提案する。
異なるカメラ座標の2Dポーズを入力として取り、グローバル座標の正確な3Dポーズを目指しています。
カメラビューが12から28の大規模マルチヒューマンデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-09T08:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。