論文の概要: PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers
- arxiv url: http://arxiv.org/abs/2303.09187v1
- Date: Thu, 16 Mar 2023 09:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:09:07.911438
- Title: PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers
- Title(参考訳): PSVT: プログレッシブビデオ変換器による多対人3D画像と形状推定
- Authors: Zhongwei Qiu, Yang Qiansheng, Jian Wang, Haocheng Feng, Junyu Han,
Errui Ding, Chang Xu, Dongmei Fu, Jingdong Wang
- Abstract要約: 本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
- 参考スコア(独自算出の注目度): 71.72888202522644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods of multi-person video 3D human Pose and Shape Estimation
(PSE) typically adopt a two-stage strategy, which first detects human instances
in each frame and then performs single-person PSE with temporal model. However,
the global spatio-temporal context among spatial instances can not be captured.
In this paper, we propose a new end-to-end multi-person 3D Pose and Shape
estimation framework with progressive Video Transformer, termed PSVT. In PSVT,
a spatio-temporal encoder (STE) captures the global feature dependencies among
spatial objects. Then, spatio-temporal pose decoder (STPD) and shape decoder
(STSD) capture the global dependencies between pose queries and feature tokens,
shape queries and feature tokens, respectively. To handle the variances of
objects as time proceeds, a novel scheme of progressive decoding is used to
update pose and shape queries at each frame. Besides, we propose a novel
pose-guided attention (PGA) for shape decoder to better predict shape
parameters. The two components strengthen the decoder of PSVT to improve
performance. Extensive experiments on the four datasets show that PSVT achieves
stage-of-the-art results.
- Abstract(参考訳): PSE(Multi-person video 3D Human Pose and Shape Estimation)の既存の手法は、一般的に2段階の戦略を採用し、まず各フレーム内の人間のインスタンスを検出し、その後、時間モデルで1対1のPSEを実行する。
しかし、空間インスタンス間のグローバルな時空間コンテキストは捉えられない。
本稿では,プログレッシブ・ビデオ・トランスフォーマー(PSVT)を用いたマルチパーソン3次元ポース・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(STE)が空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
次に、時空間ポーズデコーダ(STPD)と形状デコーダ(STSD)は、それぞれ、ポーズクエリと特徴トークン、形状クエリと特徴トークンの間のグローバルな依存関係をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、各フレームのポーズとシェープクエリを更新するために、プログレッシブデコードの新しいスキームを使用する。
また,形状パラメータを精度良く予測する新しい形状デコーダのためのポーズ誘導注意 (pga) を提案する。
2つのコンポーネントは性能を向上させるためにPSVTのデコーダを強化する。
4つのデータセットに対する大規模な実験は、PSVTがステージ・オブ・ザ・アーティファクトの結果を達成することを示している。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - PSFormer: Point Transformer for 3D Salient Object Detection [8.621996554264275]
PSFormerはエンコーダとデコーダのネットワークであり、コンテクスト情報をモデル化するためにトランスフォーマーを最大限に活用する。
エンコーダではポイントコンテキスト変換器(PCT)モジュールを開発し、ポイントレベルでの領域コンテキストの特徴をキャプチャする。
デコーダでは,シーンレベルでコンテキスト表現を学習するためのSCT (Scene Context Transformer) モジュールを開発した。
論文 参考訳(メタデータ) (2022-10-28T06:34:28Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。