論文の概要: TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation
- arxiv url: http://arxiv.org/abs/2305.00181v1
- Date: Sat, 29 Apr 2023 06:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:40:29.051071
- Title: TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation
- Title(参考訳): TAPE:時間的注意に基づく確率的人間のポーズと形状推定
- Authors: Nikolaos Vasilikopoulos, Nikos Kolotouros, Aggeliki Tsoli, Antonis
Argyros
- Abstract要約: 既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
本稿では,RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定手法を提案する。
TAPEは標準ベンチマークにおいて最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 7.22614468437919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D human pose and shape from monocular videos is a
well-studied but challenging problem. Common challenges include occlusions, the
inherent ambiguities in the 2D to 3D mapping and the computational complexity
of video processing. Existing methods ignore the ambiguities of the
reconstruction and provide a single deterministic estimate for the 3D pose. In
order to address these issues, we present a Temporal Attention based
Probabilistic human pose and shape Estimation method (TAPE) that operates on an
RGB video. More specifically, we propose to use a neural network to encode
video frames to temporal features using an attention-based neural network.
Given these features, we output a per-frame but temporally-informed probability
distribution for the human pose using Normalizing Flows. We show that TAPE
outperforms state-of-the-art methods in standard benchmarks and serves as an
effective video-based prior for optimization-based human pose and shape
estimation. Code is available at: https: //github.com/nikosvasilik/TAPE
- Abstract(参考訳): モノクロビデオから3Dのポーズと形状を再構築することは、よく研究されているが難しい問題だ。
一般的な課題として、オクルージョン、2Dから3Dマッピングにおける固有の曖昧さ、ビデオ処理の計算複雑性などがある。
既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
これらの問題に対処するため、RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定法(TAPE)を提案する。
具体的には,注意に基づくニューラルネットワークを用いて映像フレームを時間的特徴にエンコードするニューラルネットワークを提案する。
これらの特徴を考慮し、正規化フローを用いた人間のポーズに対するフレーム単位の時間的インフォームド確率分布を出力する。
テープは標準ベンチマークで最先端の手法よりも優れており、最適化に基づく人間のポーズや形状推定に有効なビデオベースプリエントとして機能する。
https: //github.com/nikosvasilik/TAPE
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation [18.14237514372724]
RGBビデオから3次元のポーズとメッシュを生成する新しいフレームワークを提案する。
SMPLパラメータを予測するために,トランスフォーマーに基づく2ストリーム時間ネットワークを訓練する。
提案アルゴリズムは,Human3.6と3DPWのデータセットで広く評価されている。
論文 参考訳(メタデータ) (2021-10-22T10:01:13Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Beyond Static Features for Temporally Consistent 3D Human Pose and Shape
from a Video [68.4542008229477]
時間的に一貫したメッシュ回復システム(TCMR)を提案する。
現在の静的特徴に支配されることなく、過去と将来のフレームの時間情報に効果的にフォーカスする。
フレームごとの3Dポーズや形状の精度が向上し、時間的一貫性が向上した。
論文 参考訳(メタデータ) (2020-11-17T13:41:34Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。