論文の概要: PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2403.12473v1
- Date: Tue, 19 Mar 2024 06:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:12:20.551801
- Title: PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery
- Title(参考訳): PostoMETRO:ロバストな3次元メッシュ回復のためのポーズトークン強化メッシュトランス
- Authors: Wendi Yang, Zihang Jiang, Shang Zhao, S. Kevin Zhou,
- Abstract要約: 本稿では,2次元ポーズ表現をトークン的に変換器に統合するPostoMETROを提案する。
閉塞のような極端なシナリオの下でも、より正確な3D座標を生成することができます。
- 参考スコア(独自算出の注目度): 20.763457281944834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent advancements in single-image-based human mesh recovery, there is a growing interest in enhancing its performance in certain extreme scenarios, such as occlusion, while maintaining overall model accuracy. Although obtaining accurately annotated 3D human poses under occlusion is challenging, there is still a wealth of rich and precise 2D pose annotations that can be leveraged. However, existing works mostly focus on directly leveraging 2D pose coordinates to estimate 3D pose and mesh. In this paper, we present PostoMETRO($\textbf{Pos}$e $\textbf{to}$ken enhanced $\textbf{ME}$sh $\textbf{TR}$ansf$\textbf{O}$rmer), which integrates occlusion-resilient 2D pose representation into transformers in a token-wise manner. Utilizing a specialized pose tokenizer, we efficiently condense 2D pose data to a compact sequence of pose tokens and feed them to the transformer together with the image tokens. This process not only ensures a rich depiction of texture from the image but also fosters a robust integration of pose and image information. Subsequently, these combined tokens are queried by vertex and joint tokens to decode 3D coordinates of mesh vertices and human joints. Facilitated by the robust pose token representation and the effective combination, we are able to produce more precise 3D coordinates, even under extreme scenarios like occlusion. Experiments on both standard and occlusion-specific benchmarks demonstrate the effectiveness of PostoMETRO. Qualitative results further illustrate the clarity of how 2D pose can help 3D reconstruction. Code will be made available.
- Abstract(参考訳): シングルイメージベースのヒューマンメッシュリカバリの最近の進歩により、モデル全体の正確性を維持しながら、閉塞のような極端なシナリオにおけるパフォーマンス向上への関心が高まっている。
隠蔽下で正確に注釈付けされた3Dポーズを得るのは難しいが、それでも活用できるリッチで正確な2Dポーズアノテーションが豊富にある。
しかし、既存の研究は主に2Dポーズ座標を直接活用して3Dポーズとメッシュを推定することに焦点を当てている。
本稿では, PostoMETRO($\textbf{Pos}$e $\textbf{to}$ken enhanced $\textbf{ME}$sh $\textbf{TR}$ansf$\textbf{O}$rmer)を提案する。
特殊なポーズトークンライザを用いることで、2Dのポーズデータをコンパクトなポーズトークン列に効率的にコンデンスし、画像トークンとともにトランスフォーマーに供給する。
このプロセスは、画像からテクスチャの豊かな描写を確実にするだけでなく、ポーズと画像情報の堅牢な統合を促進する。
その後、これらの組み合わせトークンは頂点とジョイントトークンによってクエリされ、メッシュ頂点と人間の関節の3D座標をデコードする。
頑健なポーズトークン表現と効果的な組み合わせによって達成された私たちは、閉塞のような極端なシナリオの下でも、より正確な3D座標を生成することができる。
標準およびオクルージョン固有のベンチマークの実験では、PostoMETROの有効性が示されている。
質的な結果は、どのように2Dポーズが3D再構築に役立つかをより明確に示している。
コードは利用可能になる。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs [5.84660008137615]
SYM3Dは、自然と人造の物体で見られる主観対称性構造を活用するために設計された、新しい3D対応のGANである。
単視点画像のみを訓練しても, 詳細な形状やテクスチャを捉える上で, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-10T16:24:07Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。