論文の概要: VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent
Space
- arxiv url: http://arxiv.org/abs/2312.08291v1
- Date: Wed, 13 Dec 2023 17:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:34:52.498345
- Title: VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent
Space
- Title(参考訳): VQ-HPS:ベクトル量子化潜在空間における人間の姿勢と形状推定
- Authors: Gu\'enol\'e Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio
Agudo and Francesc Moreno-Noguer
- Abstract要約: RGB画像からの人間の姿勢と形状の推定は、パラメトリックと非パラメトリックの2つの主要なグループに大別できる。
我々は、HPSEを分類タスクとして、人間のメッシュの低次元離散潜在表現を含むユニークな方法を提案する。
第一に、低次元の離散表現を予測することは、人為的ポーズと形状の空間に我々の予測を閉じ込める。第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の離散パワーを活用できる。
- 参考スコア(独自算出の注目度): 46.52821745179904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Pose and Shape Estimation (HPSE) from RGB images can be broadly
categorized into two main groups: parametric and non-parametric approaches.
Parametric techniques leverage a low-dimensional statistical body model for
realistic results, whereas recent non-parametric methods achieve higher
precision by directly regressing the 3D coordinates of the human body. Despite
their strengths, both approaches face limitations: the parameters of
statistical body models pose challenges as regression targets, and predicting
3D coordinates introduces computational complexities and issues related to
smoothness. In this work, we take a novel approach to address the HPSE problem.
We introduce a unique method involving a low-dimensional discrete latent
representation of the human mesh, framing HPSE as a classification task.
Instead of predicting body model parameters or 3D vertex coordinates, our focus
is on forecasting the proposed discrete latent representation, which can be
decoded into a registered human mesh. This innovative paradigm offers two key
advantages: firstly, predicting a low-dimensional discrete representation
confines our predictions to the space of anthropomorphic poses and shapes;
secondly, by framing the problem as a classification task, we can harness the
discriminative power inherent in neural networks. Our proposed model, VQ-HPS, a
transformer-based architecture, forecasts the discrete latent representation of
the mesh, trained through minimizing a cross-entropy loss. Our results
demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric
approaches while yielding results as realistic as those produced by parametric
methods. This highlights the significant potential of the classification
approach for HPSE.
- Abstract(参考訳): RGB画像からのHuman Pose and Shape Estimation (HPSE)は、パラメトリックと非パラメトリックの2つの主要なグループに分類される。
近年の非パラメトリック手法は, 人体の3次元座標を直接回帰することにより, 高精度化を実現している。
統計的体モデルのパラメータは回帰目標として課題を提起し、3次元座標の予測は計算複雑性と滑らか性に関連する問題をもたらす。
本稿では,HPSE問題に対処するための新しいアプローチを提案する。
本稿では,ヒトメッシュの低次元離散潜在表現を分類タスクとしてhseをフレーミングする一意な手法を提案する。
身体モデルパラメータや3次元頂点座標を予測する代わりに、提案する離散潜在表現を予測し、それを登録された人間のメッシュにデコードする。
第一に、低次元の離散表現を予測することは、人為的ポーズと形状の空間に我々の予測を閉じ込める。第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の識別力を利用することができる。
提案するモデルであるVQ-HPSは,メッシュの離散遅延表現を予測し,クロスエントロピー損失を最小限に抑えて学習する。
以上の結果から,VQ-HPSは従来の非パラメトリック手法よりも優れており,パラメトリック手法よりもリアルであることがわかった。
このことはHPSEの分類アプローチの重要な可能性を強調している。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - An Embeddable Implicit IUVD Representation for Part-based 3D Human Surface Reconstruction [22.349648542401805]
単一の画像から3次元の人体表面を再構築するには、人間のポーズ、形状、衣服の詳細を同時に検討することが重要である。
最近のアプローチでは、身体のポーズと形状をキャプチャするパラメトリックボディモデル(SMPLなど)が組み合わされている。
本稿では,IUVD占有関数とフィードバッククエリアルゴリズムからなる新しいIUVD-Feedback表現を提案する。
論文 参考訳(メタデータ) (2024-01-30T08:14:04Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Adversarial Parametric Pose Prior [106.12437086990853]
我々は、SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。
得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。
論文 参考訳(メタデータ) (2021-12-08T10:05:32Z) - HHP-Net: A light Heteroscedastic neural network for Head Pose estimation
with uncertainty [2.064612766965483]
そこで,本研究では,頭部キーポイントの小さなセットから始まる,単一画像中の人物の頭部ポーズを推定する新しい手法を提案する。
私たちのモデルは実装が簡単で、芸術の状況に関してより効率的です。
論文 参考訳(メタデータ) (2021-11-02T08:55:45Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human
Pose and Mesh Estimation from a Single RGB Image [79.040930290399]
I2L-MeshNetを提案する。
提案したI2L-MeshNetは、パラメータを直接回帰するのではなく、各メッシュ座標の1Dヒートマップ上のリセル当たりの確率を予測する。
我々のリセルベースの1Dヒートマップは入力画像の空間的関係を保存し、予測の不確かさをモデル化する。
論文 参考訳(メタデータ) (2020-08-09T12:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。