論文の概要: A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video
- arxiv url: http://arxiv.org/abs/2003.14179v4
- Date: Tue, 20 Oct 2020 01:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:52:02.150379
- Title: A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video
- Title(参考訳): 映像における3次元ポーズ推定のためのグラフ注意時空間畳み込みネットワーク
- Authors: Junfa Liu, Juan Rojas, Zhijun Liang, Yihui Li, and Yisheng Guan
- Abstract要約: 我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
- 参考スコア(独自算出の注目度): 7.647599484103065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal information is key to resolve occlusion and depth ambiguity
in 3D pose estimation. Previous methods have focused on either temporal
contexts or local-to-global architectures that embed fixed-length
spatio-temporal information. To date, there have not been effective proposals
to simultaneously and flexibly capture varying spatio-temporal sequences and
effectively achieves real-time 3D pose estimation. In this work, we improve the
learning of kinematic constraints in the human skeleton: posture, local
kinematic connections, and symmetry by modeling local and global spatial
information via attention mechanisms. To adapt to single- and multi-frame
estimation, the dilated temporal model is employed to process varying skeleton
sequences. Also, importantly, we carefully design the interleaving of spatial
semantics with temporal dependencies to achieve a synergistic effect. To this
end, we propose a simple yet effective graph attention spatio-temporal
convolutional network (GAST-Net) that comprises of interleaved temporal
convolutional and graph attention blocks. Experiments on two challenging
benchmark datasets (Human3.6M and HumanEva-I) and YouTube videos demonstrate
that our approach effectively mitigates depth ambiguity and self-occlusion,
generalizes to half upper body estimation, and achieves competitive performance
on 2D-to-3D video pose estimation. Code, video, and supplementary information
is available at:
\href{http://www.juanrojas.net/gast/}{http://www.juanrojas.net/gast/}
- Abstract(参考訳): 時空間情報は3次元ポーズ推定における咬合と深さの曖昧さを解決する鍵となる。
以前の手法では、時間的文脈か、固定長時空間情報を埋め込んだグローバルアーキテクチャに焦点が当てられていた。
これまで、様々な時空間列を同時かつ柔軟に捉え、実時間3次元ポーズ推定を実現するための効果的な提案は行われていない。
本研究では,人間の骨格における運動的制約(姿勢,局所運動的接続,対称性)の学習を,注意機構による局所的および大域的空間情報のモデル化により改善する。
単フレームおよび多フレーム推定に適応するために、拡張時間モデルを用いて様々な骨格配列を処理する。
また,相乗効果を達成するために,時間依存による空間意味論のインターリーブを慎重に設計する。
そこで本研究では,時間的畳み込みブロックとグラフアテンションブロックからなる簡易かつ有効なグラフアテンション時空間畳み込みネットワーク(gast-net)を提案する。
Human3.6MとHumanEva-I)とYouTubeビデオの2つの挑戦的なベンチマークデータセットの実験では、我々のアプローチは深度あいまいさと自己閉塞性を効果的に軽減し、半上半身推定に一般化し、2Dから3Dビデオのポーズ推定における競合性能を実現する。
コード、ビデオ、補足情報は、 \href{http://www.juanrojas.net/gast/}{http://www.juanrojas.net/gast/} で入手できる。
関連論文リスト
- STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。
具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。
提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。