論文の概要: Self-Attentive 3D Human Pose and Shape Estimation from Videos
- arxiv url: http://arxiv.org/abs/2103.14182v1
- Date: Fri, 26 Mar 2021 00:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:47:19.427770
- Title: Self-Attentive 3D Human Pose and Shape Estimation from Videos
- Title(参考訳): 自己注意型3次元ポーズと映像からの形状推定
- Authors: Yun-Chun Chen, Marco Piccirilli, Robinson Piramuthu, Ming-Hsuan Yang
- Abstract要約: 3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
- 参考スコア(独自算出の注目度): 82.63503361008607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of estimating 3D human pose and shape from videos. While
existing frame-based approaches have made significant progress, these methods
are independently applied to each image, thereby often leading to inconsistent
predictions. In this work, we present a video-based learning algorithm for 3D
human pose and shape estimation. The key insights of our method are two-fold.
First, to address the inconsistent temporal prediction issue, we exploit
temporal information in videos and propose a self-attention module that jointly
considers short-range and long-range dependencies across frames, resulting in
temporally coherent estimations. Second, we model human motion with a
forecasting module that allows the transition between adjacent frames to be
smooth. We evaluate our method on the 3DPW, MPI-INF-3DHP, and Human3.6M
datasets. Extensive experimental results show that our algorithm performs
favorably against the state-of-the-art methods.
- Abstract(参考訳): 映像から3次元人間のポーズと形状を推定する作業を検討する。
既存のフレームベースのアプローチは大きな進歩を遂げているが、これらの手法は各画像に独立して適用され、しばしば矛盾した予測につながる。
本研究では3次元人間のポーズと形状推定のためのビデオベース学習アルゴリズムを提案する。
この手法の重要な洞察は2つある。
まず,不整合な時間予測問題に対処するため,映像中の時間情報を利用して,フレーム間の短距離および長距離の依存性を共同で考慮し,時間的コヒーレントな推定を行うセルフアテンションモジュールを提案する。
第2に,隣接するフレーム間の遷移を円滑に行える予測モジュールを用いて人間の動きをモデル化する。
我々は,3DPW,MPI-INF-3DHP,Human3.6Mデータセットについて検討した。
実験結果から,本アルゴリズムは最先端手法に対して良好に動作することが示された。
関連論文リスト
- HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation [7.22614468437919]
既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
本稿では,RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定手法を提案する。
TAPEは標準ベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-29T06:08:43Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation [121.5383855764944]
コントラッシブな自己教師学習を用いて、シングルビュービデオからリッチな潜伏ベクトルを抽出する。
また,CSSを時間変化の特徴のみに適用すると同時に,入力を再構築し,近辺と遠方の特徴間の段階的な遷移を促すことにより,リッチな潜伏空間が得られることを示す。
本手法は他の教師なしシングルビュー手法よりも優れており,マルチビュー手法の性能と一致している。
論文 参考訳(メタデータ) (2020-12-02T20:27:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。