論文の概要: TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation
- arxiv url: http://arxiv.org/abs/2404.16752v1
- Date: Thu, 25 Apr 2024 17:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:01:06.722877
- Title: TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation
- Title(参考訳): TokenHMR:Tokenized Pose Representationによる人間のメッシュ回復の促進
- Authors: Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Yao Feng, Michael J. Black,
- Abstract要約: 現在の手法では3次元擬似地下構造(p-GT)と2次元鍵点を利用して、堅牢な性能を実現している。
このような手法により、3次元ポーズ精度のパラドックス的低下が観察され、2次元精度が増大する。
現行のカメラモデルによる誤差を定量化し、2Dキーポイントとp-GTの装着が正確な3Dポーズを引き起こすことを示す。
- 参考スコア(独自算出の注目度): 48.08156777874614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of regressing 3D human pose and shape from a single image, with a focus on 3D accuracy. The current best methods leverage large datasets of 3D pseudo-ground-truth (p-GT) and 2D keypoints, leading to robust performance. With such methods, we observe a paradoxical decline in 3D pose accuracy with increasing 2D accuracy. This is caused by biases in the p-GT and the use of an approximate camera projection model. We quantify the error induced by current camera models and show that fitting 2D keypoints and p-GT accurately causes incorrect 3D poses. Our analysis defines the invalid distances within which minimizing 2D and p-GT losses is detrimental. We use this to formulate a new loss Threshold-Adaptive Loss Scaling (TALS) that penalizes gross 2D and p-GT losses but not smaller ones. With such a loss, there are many 3D poses that could equally explain the 2D evidence. To reduce this ambiguity we need a prior over valid human poses but such priors can introduce unwanted bias. To address this, we exploit a tokenized representation of human pose and reformulate the problem as token prediction. This restricts the estimated poses to the space of valid poses, effectively providing a uniform prior. Extensive experiments on the EMDB and 3DPW datasets show that our reformulated keypoint loss and tokenization allows us to train on in-the-wild data while improving 3D accuracy over the state-of-the-art. Our models and code are available for research at https://tokenhmr.is.tue.mpg.de.
- Abstract(参考訳): 我々は,1枚の画像から3次元の人間のポーズと形状を復元する問題を3次元精度に焦点をあてて解決する。
現在のベストメソッドは、3D擬似地下構造(p-GT)と2Dキーポイントの大規模なデータセットを活用することで、堅牢なパフォーマンスを実現している。
このような手法により、3次元ポーズ精度のパラドックス的低下が観察され、2次元精度が増大する。
これは、p-GTのバイアスと近似カメラ投影モデルの使用によって引き起こされる。
現行のカメラモデルによる誤差を定量化し、2Dキーポイントとp-GTの装着が正確な3Dポーズを引き起こすことを示す。
本分析では,2Dおよびp-GT損失の最小化が有害な距離を規定する。
我々はこの手法を用いて、Treshold-Adaptive Loss Scaling (TALS) という新たな損失を定式化した。
このような損失により、同様に2Dの証拠を説明することができる多くの3Dポーズが存在する。
このあいまいさを減らすには、有効な人間のポーズよりも先行性が必要であるが、そのような先行性は望ましくないバイアスをもたらす可能性がある。
これを解決するために、人間のポーズのトークン化表現を利用し、トークン予測として問題を再構築する。
これは、推定されたポーズを妥当なポーズの空間に制限し、効果的に均一な事前を与える。
EMDBと3DPWデータセットの大規模な実験により、我々の改定されたキーポイントロスとトークン化により、最先端の3D精度を向上しつつ、ウィジェット内データのトレーニングが可能になります。
私たちのモデルとコードはhttps://tokenhmr.is.tue.mpg.de.comで研究できます。
関連論文リスト
- LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for
Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation [4.648549457266638]
2Dキネマティックスケルトンから3D人間のポーズを復元する新しい教師なし学習法であるLInKsを提案する。
提案手法は,まず3次元領域に隠された2次元のポーズを持ち上げるという,ユニークな2段階のプロセスに従う。
このリフト・テン・フィルのアプローチは、2次元空間でのみポーズを完了したモデルよりもはるかに正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-09-13T18:28:04Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。