論文の概要: Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos
- arxiv url: http://arxiv.org/abs/2210.03659v2
- Date: Mon, 10 Oct 2022 03:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 11:52:24.073869
- Title: Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos
- Title(参考訳): 人体ポーズの時空間的傾向推論と映像からの形状推定
- Authors: Boyang Zhang, SuPing Wu, Hu Cao, Kehua Ma, Pan Li, Lei Lin
- Abstract要約: ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
- 参考スコア(独自算出の注目度): 10.50306784245168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a spatio-temporal tendency reasoning (STR) network
for recovering human body pose and shape from videos. Previous approaches have
focused on how to extend 3D human datasets and temporal-based learning to
promote accuracy and temporal smoothing. Different from them, our STR aims to
learn accurate and natural motion sequences in an unconstrained environment
through temporal and spatial tendency and to fully excavate the spatio-temporal
features of existing video data. To this end, our STR learns the representation
of features in the temporal and spatial dimensions respectively, to concentrate
on a more robust representation of spatio-temporal features. More specifically,
for efficient temporal modeling, we first propose a temporal tendency reasoning
(TTR) module. TTR constructs a time-dimensional hierarchical residual
connection representation within a video sequence to effectively reason
temporal sequences' tendencies and retain effective dissemination of human
information. Meanwhile, for enhancing the spatial representation, we design a
spatial tendency enhancing (STE) module to further learns to excite spatially
time-frequency domain sensitive features in human motion information
representations. Finally, we introduce integration strategies to integrate and
refine the spatio-temporal feature representations. Extensive experimental
findings on large-scale publically available datasets reveal that our STR
remains competitive with the state-of-the-art on three datasets. Our code are
available at https://github.com/Changboyang/STR.git.
- Abstract(参考訳): 本稿では,ビデオから人体のポーズや形状を復元する時空間傾向推論(STR)ネットワークを提案する。
従来のアプローチでは、正確性と時間的平滑化を促進するために、人間の3Dデータセットと時間に基づく学習をどのように拡張するかに焦点が当てられていた。
これらと異なるのは,時間的・空間的傾向を通じて制約のない環境下での正確な自然な動きのシーケンスを学習し,既存の映像データの時空間的特徴を十分に抽出することである。
この目的のために,我々は時間次元と空間次元のそれぞれの特徴の表現を学習し,時空間的特徴のより強固な表現に集中する。
具体的には、効率的な時間的モデリングのために、まず時間的傾向推論(TTR)モジュールを提案する。
TTRはビデオシーケンス内に時間次元の階層的残差接続表現を構築し、時間的シーケンスの傾向を効果的に推論し、人間の情報の効果的な拡散を維持する。
一方、空間表現の強化のために、人間の動き情報表現において空間的時間周波数領域に敏感な特徴を励起する空間傾向強調(STE)モジュールを設計する。
最後に,時空間的特徴表現の統合と洗練のために統合戦略を導入する。
大規模な公開データセットに関する大規模な実験結果によると、STRは3つのデータセットの最先端と競争力を維持しています。
私たちのコードはhttps://github.com/changboyang/str.gitで入手できる。
関連論文リスト
- STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。
具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。
提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Jointly spatial-temporal representation learning for individual
trajectories [30.318791393724524]
本稿では、学習可能な時空間依存を軌跡表現にフォーマル化する時空間共同表現学習法(ST-GraphRL)を提案する。
実世界の3つの人間の移動性データセットを用いて,ST-GraphRLは,移動時空間分布の予測と,空間時空間相関の高い軌道類似性の保存において,すべてのベースラインモデルより優れていた。
論文 参考訳(メタデータ) (2023-12-07T05:27:24Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - TPCN: Temporal Point Cloud Networks for Motion Forecasting [47.829152433166016]
軌道予測のための空間的・時間的共同学習フレームワークを提案する。
空間的次元ではエージェントは無秩序な点集合と見なすことができ、したがってエージェントの位置をモデル化するためにポイントクラウド学習技術を適用することは容易である。
Argoverse運動予測ベンチマークの実験は、私たちのアプローチが最先端の結果を達成することを示しています。
論文 参考訳(メタデータ) (2021-03-04T14:44:32Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。