論文の概要: Video-Based Human Pose Regression via Decoupled Space-Time Aggregation
- arxiv url: http://arxiv.org/abs/2403.19926v2
- Date: Mon, 1 Apr 2024 08:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:25:26.463896
- Title: Video-Based Human Pose Regression via Decoupled Space-Time Aggregation
- Title(参考訳): デカップリング空間時間アグリゲーションによるビデオベースヒューマンポーズ回帰
- Authors: Jijie He, Wenwu Yang,
- Abstract要約: そこで我々は,Asmapなどの中間表現をバイパスし,その代わりに入力を直接共同座標にマッピングする,効率的で効果的なビデオベースヒューマンポーズ回帰手法を開発した。
本手法は, 隣り合う関節の空間的依存性と各関節の時間的依存性を効率よく, 柔軟に利用することができる。
我々のアプローチは、最先端のヒートマップベースのマルチフレームヒューマンポーズ推定手法に匹敵するか、同等である。
- 参考スコア(独自算出の注目度): 0.5524804393257919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By leveraging temporal dependency in video sequences, multi-frame human pose estimation algorithms have demonstrated remarkable results in complicated situations, such as occlusion, motion blur, and video defocus. These algorithms are predominantly based on heatmaps, resulting in high computation and storage requirements per frame, which limits their flexibility and real-time application in video scenarios, particularly on edge devices. In this paper, we develop an efficient and effective video-based human pose regression method, which bypasses intermediate representations such as heatmaps and instead directly maps the input to the output joint coordinates. Despite the inherent spatial correlation among adjacent joints of the human pose, the temporal trajectory of each individual joint exhibits relative independence. In light of this, we propose a novel Decoupled Space-Time Aggregation network (DSTA) to separately capture the spatial contexts between adjacent joints and the temporal cues of each individual joint, thereby avoiding the conflation of spatiotemporal dimensions. Concretely, DSTA learns a dedicated feature token for each joint to facilitate the modeling of their spatiotemporal dependencies. With the proposed joint-wise local-awareness attention mechanism, our method is capable of efficiently and flexibly utilizing the spatial dependency of adjacent joints and the temporal dependency of each joint itself. Extensive experiments demonstrate the superiority of our method. Compared to previous regression-based single-frame human pose estimation methods, DSTA significantly enhances performance, achieving an 8.9 mAP improvement on PoseTrack2017. Furthermore, our approach either surpasses or is on par with the state-of-the-art heatmap-based multi-frame human pose estimation methods. Project page: https://github.com/zgspose/DSTA.
- Abstract(参考訳): ビデオシーケンスにおける時間的依存性を活用することで、マルチフレームの人間のポーズ推定アルゴリズムは、閉塞、動きのぼやけ、ビデオデフォーカスといった複雑な状況において顕著な結果を示した。
これらのアルゴリズムは主にヒートマップに基づいており、結果としてフレーム毎に高い計算とストレージ要求が発生し、ビデオシナリオ、特にエッジデバイスにおけるその柔軟性とリアルタイムなアプリケーションを制限する。
本稿では,ヒートマップなどの中間表現をバイパスし,入力を出力されたジョイント座標に直接マッピングする,効率的かつ効果的なヒューマンポーズ回帰手法を開発する。
ヒトのポーズの隣り合う関節の空間的相関にもかかわらず、各関節の時間的軌跡は相対的な独立性を示す。
そこで本研究では,各関節の空間的状況と時間的手がかりを分離的に把握し,時空間次元の融合を回避するために,新たにDSTA(Decoupled Space-Time Aggregation Network)を提案する。
具体的には、DSTAは各関節に専用の特徴トークンを学習し、時空間依存のモデリングを容易にする。
提案手法では, 近接する関節の空間的依存性と各関節の時間的依存性を効率よく, 柔軟に利用することができる。
大規模な実験により,本手法の優位性を実証した。
従来の回帰ベースの単一フレームのヒューマンポーズ推定手法と比較して、DSTAはパフォーマンスを大幅に向上し、PoseTrack2017の8.9mAP改善を実現している。
さらに,本手法は,最先端のヒートマップに基づくマルチフレームヒューマンポーズ推定手法に匹敵するか,あるいは同等である。
プロジェクトページ: https://github.com/zgspose/DSTA.com
関連論文リスト
- A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。
本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。
また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T07:14:59Z) - Kinematics Modeling Network for Video-based Human Pose Estimation [9.506011491028891]
ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。
関節は人間の動きの中で独立して動くのではなく協力する。
関節間の時間的相関を明示的にモデル化するためのKMM(プラグイン・アンド・プレイ・キネマティクス・モデリング・モジュール)を提案する。
論文 参考訳(メタデータ) (2022-07-22T09:37:48Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Spatio-Temporal Joint Graph Convolutional Networks for Traffic
Forecasting [75.10017445699532]
近年、時間グラフモデリング問題として交通予測の定式化に焦点が移っている。
本稿では,道路網における交通予測の精度向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-25T08:45:14Z) - Relation-Based Associative Joint Location for Human Pose Estimation in
Videos [5.237054164442403]
我々は,関節間の連想関係を明確かつ自動でモデル化する軽量でプラグアンドプレイな関節関係抽出器 (JRE) を設計する。
JREは2つの関節の関係を柔軟に学習し、人間のポーズの豊かな空間構成を学習する。
そして、時間的意味連続性モデリングと組み合わせて、ビデオに基づく人間のポーズ推定のための関係に基づくPose Semantics Transfer Network (RPSTN)を提案する。
論文 参考訳(メタデータ) (2021-07-08T04:05:23Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。