論文の概要: VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space
- arxiv url: http://arxiv.org/abs/2312.08291v4
- Date: Mon, 15 Jul 2024 12:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:34:28.696792
- Title: VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space
- Title(参考訳): VQ-HPS:ベクトル量子化潜在空間における人間の姿勢と形状推定
- Authors: Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo, Francesc Moreno-Noguer,
- Abstract要約: この研究は、ヒューマン・ポースと形状推定の問題に対処する新しいパラダイムを導入している。
身体モデルパラメータを予測する代わりに、提案した離散潜在表現を予測することに重点を置いている。
提案モデルであるVQ-HPSはメッシュの離散潜在表現を予測する。
- 参考スコア(独自算出の注目度): 43.368963897752664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works on Human Pose and Shape Estimation (HPSE) from RGB images can be broadly categorized into two main groups: parametric and non-parametric approaches. Parametric techniques leverage a low-dimensional statistical body model for realistic results, whereas recent non-parametric methods achieve higher precision by directly regressing the 3D coordinates of the human body mesh. This work introduces a novel paradigm to address the HPSE problem, involving a low-dimensional discrete latent representation of the human mesh and framing HPSE as a classification task. Instead of predicting body model parameters or 3D vertex coordinates, we focus on predicting the proposed discrete latent representation, which can be decoded into a registered human mesh. This innovative paradigm offers two key advantages. Firstly, predicting a low-dimensional discrete representation confines our predictions to the space of anthropomorphic poses and shapes even when little training data is available. Secondly, by framing the problem as a classification task, we can harness the discriminative power inherent in neural networks. The proposed model, VQ-HPS, predicts the discrete latent representation of the mesh. The experimental results demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric approaches while yielding results as realistic as those produced by parametric methods when trained with little data. VQ-HPS also shows promising results when training on large-scale datasets, highlighting the significant potential of the classification approach for HPSE. See the project page at https://g-fiche.github.io/research-pages/vqhps/
- Abstract(参考訳): RGB画像からのHuman Pose and Shape Estimation(HPSE)に関するこれまでの研究は、パラメトリックと非パラメトリックの2つの主要なグループに分類される。
近年の非パラメトリック手法は, 人体メッシュの3次元座標を直接回帰することにより, 高精度化を実現している。
本研究はHPSE問題に対処する新しいパラダイムを導入し,人間のメッシュの低次元離散潜在表現とHPSEのフレーミングを分類課題とする。
身体モデルパラメータや3次元頂点座標を予測する代わりに、提案する離散潜在表現の予測に重点を置いており、これは登録された人間のメッシュにデコードできる。
この革新的なパラダイムには2つの大きな利点がある。
第一に、低次元の離散表現を予測することは、トレーニングデータが少ない場合でも、人為的ポーズや形状の空間に予測を限定する。
第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の識別力を利用することができる。
提案モデルであるVQ-HPSはメッシュの離散潜在表現を予測する。
実験結果から,VQ-HPSは従来の非パラメトリック手法よりも優れており,少ないデータでトレーニングした場合のパラメトリック手法と同等に現実的な結果が得られることがわかった。
VQ-HPSはまた、大規模データセットのトレーニングにおいて有望な結果を示し、HPSEの分類アプローチの有意義な可能性を強調している。
プロジェクトページはhttps://g-fiche.github.io/research-pages/vqhps/にある。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - An Embeddable Implicit IUVD Representation for Part-based 3D Human Surface Reconstruction [22.349648542401805]
単一の画像から3次元の人体表面を再構築するには、人間のポーズ、形状、衣服の詳細を同時に検討することが重要である。
最近のアプローチでは、身体のポーズと形状をキャプチャするパラメトリックボディモデル(SMPLなど)が組み合わされている。
本稿では,IUVD占有関数とフィードバッククエリアルゴリズムからなる新しいIUVD-Feedback表現を提案する。
論文 参考訳(メタデータ) (2024-01-30T08:14:04Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Adversarial Parametric Pose Prior [106.12437086990853]
我々は、SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。
得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。
論文 参考訳(メタデータ) (2021-12-08T10:05:32Z) - HHP-Net: A light Heteroscedastic neural network for Head Pose estimation
with uncertainty [2.064612766965483]
そこで,本研究では,頭部キーポイントの小さなセットから始まる,単一画像中の人物の頭部ポーズを推定する新しい手法を提案する。
私たちのモデルは実装が簡単で、芸術の状況に関してより効率的です。
論文 参考訳(メタデータ) (2021-11-02T08:55:45Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human
Pose and Mesh Estimation from a Single RGB Image [79.040930290399]
I2L-MeshNetを提案する。
提案したI2L-MeshNetは、パラメータを直接回帰するのではなく、各メッシュ座標の1Dヒートマップ上のリセル当たりの確率を予測する。
我々のリセルベースの1Dヒートマップは入力画像の空間的関係を保存し、予測の不確かさをモデル化する。
論文 参考訳(メタデータ) (2020-08-09T12:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。