論文の概要: PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2403.12473v1
- Date: Tue, 19 Mar 2024 06:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:12:20.551801
- Title: PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery
- Title(参考訳): PostoMETRO:ロバストな3次元メッシュ回復のためのポーズトークン強化メッシュトランス
- Authors: Wendi Yang, Zihang Jiang, Shang Zhao, S. Kevin Zhou,
- Abstract要約: 本稿では,2次元ポーズ表現をトークン的に変換器に統合するPostoMETROを提案する。
閉塞のような極端なシナリオの下でも、より正確な3D座標を生成することができます。
- 参考スコア(独自算出の注目度): 20.763457281944834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent advancements in single-image-based human mesh recovery, there is a growing interest in enhancing its performance in certain extreme scenarios, such as occlusion, while maintaining overall model accuracy. Although obtaining accurately annotated 3D human poses under occlusion is challenging, there is still a wealth of rich and precise 2D pose annotations that can be leveraged. However, existing works mostly focus on directly leveraging 2D pose coordinates to estimate 3D pose and mesh. In this paper, we present PostoMETRO($\textbf{Pos}$e $\textbf{to}$ken enhanced $\textbf{ME}$sh $\textbf{TR}$ansf$\textbf{O}$rmer), which integrates occlusion-resilient 2D pose representation into transformers in a token-wise manner. Utilizing a specialized pose tokenizer, we efficiently condense 2D pose data to a compact sequence of pose tokens and feed them to the transformer together with the image tokens. This process not only ensures a rich depiction of texture from the image but also fosters a robust integration of pose and image information. Subsequently, these combined tokens are queried by vertex and joint tokens to decode 3D coordinates of mesh vertices and human joints. Facilitated by the robust pose token representation and the effective combination, we are able to produce more precise 3D coordinates, even under extreme scenarios like occlusion. Experiments on both standard and occlusion-specific benchmarks demonstrate the effectiveness of PostoMETRO. Qualitative results further illustrate the clarity of how 2D pose can help 3D reconstruction. Code will be made available.
- Abstract(参考訳): シングルイメージベースのヒューマンメッシュリカバリの最近の進歩により、モデル全体の正確性を維持しながら、閉塞のような極端なシナリオにおけるパフォーマンス向上への関心が高まっている。
隠蔽下で正確に注釈付けされた3Dポーズを得るのは難しいが、それでも活用できるリッチで正確な2Dポーズアノテーションが豊富にある。
しかし、既存の研究は主に2Dポーズ座標を直接活用して3Dポーズとメッシュを推定することに焦点を当てている。
本稿では, PostoMETRO($\textbf{Pos}$e $\textbf{to}$ken enhanced $\textbf{ME}$sh $\textbf{TR}$ansf$\textbf{O}$rmer)を提案する。
特殊なポーズトークンライザを用いることで、2Dのポーズデータをコンパクトなポーズトークン列に効率的にコンデンスし、画像トークンとともにトランスフォーマーに供給する。
このプロセスは、画像からテクスチャの豊かな描写を確実にするだけでなく、ポーズと画像情報の堅牢な統合を促進する。
その後、これらの組み合わせトークンは頂点とジョイントトークンによってクエリされ、メッシュ頂点と人間の関節の3D座標をデコードする。
頑健なポーズトークン表現と効果的な組み合わせによって達成された私たちは、閉塞のような極端なシナリオの下でも、より正確な3D座標を生成することができる。
標準およびオクルージョン固有のベンチマークの実験では、PostoMETROの有効性が示されている。
質的な結果は、どのように2Dポーズが3D再構築に役立つかをより明確に示している。
コードは利用可能になる。
関連論文リスト
- 3D Human Pose Estimation with Occlusions: Introducing BlendMimic3D Dataset and GCN Refinement [6.858859328420893]
この研究は、HPE(3D Human Pose Estimation)における最先端のギャップを特定し、対処する。
BlendMimic3Dデータセットは,オクルージョンが発生している現実世界の状況を模倣するように設計されている。
また,グラフモデルによるポーズ表現を強化するために,GCN(Graph Convolutional Network)を用いた3次元ポーズ改善ブロックを提案する。
論文 参考訳(メタデータ) (2024-04-24T18:49:37Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [52.48562830046236]
MPMは、3Dの人間のポーズ推定、3Dのポーズ推定、oc 2Dのポーズからの3Dのポーズ推定、単一のフレームワークでの3Dのポーズ完了など、複数のタスクを処理できる。
我々は、広く使われている複数の人間のポーズデータセットに関する広範な実験とアブレーション研究を行っている。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - ECON: Explicit Clothed humans Optimized via Normal integration [54.51948104460489]
ゆるい衣服で3D人間を作る方法であるECONについて述べる。
布を被った人の正面と後方の詳細な2Dマップを推測する。
d-BiNI曲面の間の欠測幾何を「塗装」する。
論文 参考訳(メタデータ) (2022-12-14T18:59:19Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。