論文の概要: Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape
Estimation from Monocular Video
- arxiv url: http://arxiv.org/abs/2203.08534v1
- Date: Wed, 16 Mar 2022 11:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:36:50.525881
- Title: Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape
Estimation from Monocular Video
- Title(参考訳): 運動中の人間を捕らえる: 時間的接触型3次元人間のポーズと単眼映像からの形状推定
- Authors: Wen-Li Wei, Jen-Chun Lin, Tyng-Luh Liu, and Hong-Yuan Mark Liao
- Abstract要約: 映像から3次元の人間のポーズと形状を推定するために,動作中の人間を捕捉する動きポーズと形状ネットワーク(MPS-Net)を提案する。
具体的には、まず、人間の動きから観察された視覚的手がかりを利用して、シーケンス内の注意を必要とする範囲を適応的に再調整する動き継続注意(MoCA)モジュールを提案する。
MoCAとHAFIモジュールを結合することにより、提案したMPS-Netは、ビデオ中の3D人間のポーズと形状を推定するのに優れている。
- 参考スコア(独自算出の注目度): 24.217269857183233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to capture human motion is essential to 3D human pose and shape
estimation from monocular video. However, the existing methods mainly rely on
recurrent or convolutional operation to model such temporal information, which
limits the ability to capture non-local context relations of human motion. To
address this problem, we propose a motion pose and shape network (MPS-Net) to
effectively capture humans in motion to estimate accurate and temporally
coherent 3D human pose and shape from a video. Specifically, we first propose a
motion continuity attention (MoCA) module that leverages visual cues observed
from human motion to adaptively recalibrate the range that needs attention in
the sequence to better capture the motion continuity dependencies. Then, we
develop a hierarchical attentive feature integration (HAFI) module to
effectively combine adjacent past and future feature representations to
strengthen temporal correlation and refine the feature representation of the
current frame. By coupling the MoCA and HAFI modules, the proposed MPS-Net
excels in estimating 3D human pose and shape in the video. Though conceptually
simple, our MPS-Net not only outperforms the state-of-the-art methods on the
3DPW, MPI-INF-3DHP, and Human3.6M benchmark datasets, but also uses fewer
network parameters. The video demos can be found at
https://mps-net.github.io/MPS-Net/.
- Abstract(参考訳): 人間の動きを捉えるための学習は、3d人間のポーズと単眼ビデオからの形状推定に不可欠である。
しかし、既存の手法は時間的情報をモデル化するために再帰的あるいは畳み込み的操作に主に依存しており、これは人間の動きの非局所的文脈関係を捉える能力を制限する。
そこで本研究では,人間の動きを効果的に捉え,映像から正確な3次元ポーズ・形状を推定する動きポーズ・形状ネットワーク(MPS-Net)を提案する。
具体的には、まず、人間の動きから観察される視覚的手がかりを利用して、動きの連続性依存性をよりよく捉えるために、シーケンス内で注意を必要とする範囲を適応的に再調整する動き連続性注意(MoCA)モジュールを提案する。
そして、隣接した過去と将来の特徴表現を効果的に組み合わせ、時間的相関を強化し、現在のフレームの特徴表現を洗練させる階層的注意機能統合(HAFI)モジュールを開発する。
MoCAとHAFIモジュールを結合することにより、提案したMPS-Netは、ビデオ中の3D人間のポーズと形状を推定できる。
概念的には単純ではあるが、MPS-Netは3DPW、MPI-INF-3DHP、Human3.6Mベンチマークデータセットの最先端メソッドよりも優れており、ネットワークパラメータも少ない。
ビデオデモはhttps://mps-net.github.io/MPS-Net/で見ることができる。
関連論文リスト
- HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - History Repeats Itself: Human Motion Prediction via Motion Attention [81.94175022575966]
注意に基づくフィードフォワードネットワークを導入し、人間の動きが自分自身を繰り返す傾向にあるという観察を明示的に活用する。
特に,現在動きのコンテキストと過去の動きのサブシーケンスの類似性を捉えるために,動きの注意を抽出することを提案する。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を実証した。
論文 参考訳(メタデータ) (2020-07-23T02:12:27Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。