論文の概要: Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos
- arxiv url: http://arxiv.org/abs/2311.11662v1
- Date: Mon, 20 Nov 2023 10:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:18:45.390786
- Title: Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos
- Title(参考訳): モノクロ映像からの連続ロバスト3次元運動回復のための時空間環境の強化
- Authors: Sushovan Chanda and Amogh Tiwari and Lokender Tiwari and Brojeshwar
Bhowmick and Avinash Sharma and Hrishav Barua
- Abstract要約: 本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。
汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。
提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
- 参考スコア(独自算出の注目度): 5.258814754543826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering temporally consistent 3D human body pose, shape and motion from a
monocular video is a challenging task due to (self-)occlusions, poor lighting
conditions, complex articulated body poses, depth ambiguity, and limited
availability of annotated data. Further, doing a simple perframe estimation is
insufficient as it leads to jittery and implausible results. In this paper, we
propose a novel method for temporally consistent motion estimation from a
monocular video. Instead of using generic ResNet-like features, our method uses
a body-aware feature representation and an independent per-frame pose and
camera initialization over a temporal window followed by a novel
spatio-temporal feature aggregation by using a combination of self-similarity
and self-attention over the body-aware features and the perframe
initialization. Together, they yield enhanced spatiotemporal context for every
frame by considering remaining past and future frames. These features are used
to predict the pose and shape parameters of the human body model, which are
further refined using an LSTM. Experimental results on the publicly available
benchmark data show that our method attains significantly lower acceleration
error and outperforms the existing state-of-the-art methods over all key
quantitative evaluation metrics, including complex scenarios like partial
occlusion, complex poses and even relatively low illumination.
- Abstract(参考訳): 時間的に一貫した3次元人体ポーズの復元、単眼映像からの形状と運動は、(自己の)占有、照明条件の悪化、複雑な関節のポーズ、奥行きあいまい、注釈付きデータの可用性の制限などにより困難な課題である。
さらに、単純なパーフレーム推定を行うことは、ジッタや目立たない結果につながるため不十分である。
本稿では,単眼映像から時間的に一貫した動きを推定する新しい手法を提案する。
汎用ResNetのような特徴の代わりに、ボディ認識特徴表現とフレーム単位の独立ポーズとカメラ初期化を使い、ボディ認識特徴とフレーム単位の初期化に対する自己相似性と自己認識の組み合わせを用いて、時間的ウィンドウ上での新規な時空間特徴集約を行う。
共に、過去と将来のフレームを考慮し、各フレームの時空間的コンテキストを増大させる。
これらの特徴は、LSTMを用いてさらに洗練されている人体モデルのポーズと形状パラメータを予測するために使用される。
ベンチマークデータを用いた実験結果から,提案手法は加速誤差を著しく低減し,部分閉塞や複雑なポーズ,さらには比較的低い照明といった複雑なシナリオを含む,すべての主要な定量的評価指標に対して既存手法よりも優れることがわかった。
関連論文リスト
- S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video [13.510513575340106]
単一の単眼映像から動的に調音された物体を再構成することは困難であり、限られた視点から形状、動き、カメラパラメータを共同で推定する必要がある。
可視形状や下層の骨格を含むパラメトリックモデルを効率的に学習する新しい2相法であるS3Oを提案する。
標準ベンチマークとPlanetZooデータセットの実験により、S3Oはより正確な3D再構成と可塑性骨格を提供し、最先端技術と比較してトレーニング時間を約60%短縮することを確認した。
論文 参考訳(メタデータ) (2024-05-21T09:01:00Z) - STRIDE: Single-video based Temporally Continuous Occlusion Robust 3D Pose Estimation [27.854074900345314]
ビデオに先立って人間の動作に適合する新しいテストタイムトレーニング(TTT)手法であるSTRIDEを提案する。
筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。
我々は、Occluded Human3.6M、Human3.6M、OCMotionのような挑戦的なデータセットに関する包括的な実験を通じてSTRIDEの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-24T11:05:10Z) - Exploiting Spatial-Temporal Context for Interacting Hand Reconstruction
on Monocular RGB Video [104.69686024776396]
モノラルなRGBデータからインタラクションハンドを再構築することは、多くの干渉要因が伴うため、難しい作業である。
これまでの作業は、物理的に妥当な関係をモデル化することなく、単一のRGBイメージからの情報のみを活用する。
本研究は, 空間的時間的情報を明示的に活用し, より優れた対話的手指再建を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-08T06:16:37Z) - SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse
Spatial-Temporal Guidance [71.3027345302485]
リアルタイムモノクル3D再構成は未解決の課題である。
視覚SLAMシステムからのスパース推定点を利用したエンドツーエンドの3D再構成ネットワークSSTを提案する。
SSTは、59FPSで高い推論速度を維持しながら、最先端の競合他社よりも優れています。
論文 参考訳(メタデータ) (2022-12-13T12:17:13Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Imposing Temporal Consistency on Deep Monocular Body Shape and Pose
Estimation [67.23327074124855]
本稿では,適合過程における時間的制約の統合に対するエレガントな解法を提案する。
我々は、顎ポーズ、表情、指ポーズを含む人物の形状と動きを表す一連の身体モデルのパラメーターを導出する。
本手法は,表情や手話を含む画像系列からリアルな3次元体モデルの導出を可能にする。
論文 参考訳(メタデータ) (2022-02-07T11:11:55Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering [13.219688351773422]
本稿では,自己教師型でユーザの体積体モデルを学習する単眼モーションキャプチャのためのテスト時間最適化手法を提案する。
我々のアプローチは自己監督的であり、外観、ポーズ、および3D形状のための追加の真実ラベルを必要としない。
本研究では, 識別的ポーズ推定手法と表面自由解析-合成による識別的ポーズ推定手法の組み合わせが, 純粋に識別的ポーズ推定手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-02-11T18:58:31Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。