論文の概要: Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation
- arxiv url: http://arxiv.org/abs/2109.02303v1
- Date: Mon, 6 Sep 2021 09:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:33:57.263299
- Title: Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation
- Title(参考訳): マルチレベル注意型エンコーダデコーダによる3次元形状と姿勢推定
- Authors: Ziniu Wan, Zhengjia Li, Maoqing Tian, Jianbo Liu, Shuai Yi, Hongsheng
Li
- Abstract要約: 本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 61.98690211671168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human shape and pose estimation is the essential task for human motion
analysis, which is widely used in many 3D applications. However, existing
methods cannot simultaneously capture the relations at multiple levels,
including spatial-temporal level and human joint level. Therefore they fail to
make accurate predictions in some hard scenarios when there is cluttered
background, occlusion, or extreme pose. To this end, we propose Multi-level
Attention Encoder-Decoder Network (MAED), including a Spatial-Temporal Encoder
(STE) and a Kinematic Topology Decoder (KTD) to model multi-level attentions in
a unified framework. STE consists of a series of cascaded blocks based on
Multi-Head Self-Attention, and each block uses two parallel branches to learn
spatial and temporal attention respectively. Meanwhile, KTD aims at modeling
the joint level attention. It regards pose estimation as a top-down
hierarchical process similar to SMPL kinematic tree. With the training set of
3DPW, MAED outperforms previous state-of-the-art methods by 6.2, 7.2, and 2.4
mm of PA-MPJPE on the three widely used benchmarks 3DPW, MPI-INF-3DHP, and
Human3.6M respectively. Our code is available at
https://github.com/ziniuwan/maed.
- Abstract(参考訳): 3d人間の形状とポーズ推定は、多くの3dアプリケーションで広く使われている人間の動き分析に不可欠なタスクである。
しかし、既存の手法では、空間的時間的レベルと人間の関節レベルを含む複数のレベルの関係を同時に捉えることはできない。
そのため、乱雑な背景、閉塞、極端なポーズがある場合、いくつかの厳しいシナリオで正確な予測を行うことができない。
そこで本研究では,STE(Spatial-Temporal Encoder)とKTD(Kinematic Topology Decoder)を含むマルチレベルアテンション・デコーダネットワーク(MAED)を提案する。
STEはマルチヘッド自己認識に基づく一連のカスケードブロックで構成され、各ブロックは2つの並列分岐を用いてそれぞれ空間的および時間的注意を学習する。
一方、ktdはジョイントレベルの注意をモデル化することを目指している。
ポーズ推定は、smplキネマティックツリーに似たトップダウン階層プロセスである。
3DPWのトレーニングセットにより、MAEDは3つの広く使用されているベンチマークである3DPW、MPI-INF-3DHP、Human3.6Mにおいて、PA-MPJPEの6.2、7.2、2.4mmの最先端の手法より優れている。
私たちのコードはhttps://github.com/ziniuwan/maedで入手できる。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。