論文の概要: A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video
- arxiv url: http://arxiv.org/abs/2003.14179v4
- Date: Tue, 20 Oct 2020 01:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:52:02.150379
- Title: A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video
- Title(参考訳): 映像における3次元ポーズ推定のためのグラフ注意時空間畳み込みネットワーク
- Authors: Junfa Liu, Juan Rojas, Zhijun Liang, Yihui Li, and Yisheng Guan
- Abstract要約: 我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
- 参考スコア(独自算出の注目度): 7.647599484103065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal information is key to resolve occlusion and depth ambiguity
in 3D pose estimation. Previous methods have focused on either temporal
contexts or local-to-global architectures that embed fixed-length
spatio-temporal information. To date, there have not been effective proposals
to simultaneously and flexibly capture varying spatio-temporal sequences and
effectively achieves real-time 3D pose estimation. In this work, we improve the
learning of kinematic constraints in the human skeleton: posture, local
kinematic connections, and symmetry by modeling local and global spatial
information via attention mechanisms. To adapt to single- and multi-frame
estimation, the dilated temporal model is employed to process varying skeleton
sequences. Also, importantly, we carefully design the interleaving of spatial
semantics with temporal dependencies to achieve a synergistic effect. To this
end, we propose a simple yet effective graph attention spatio-temporal
convolutional network (GAST-Net) that comprises of interleaved temporal
convolutional and graph attention blocks. Experiments on two challenging
benchmark datasets (Human3.6M and HumanEva-I) and YouTube videos demonstrate
that our approach effectively mitigates depth ambiguity and self-occlusion,
generalizes to half upper body estimation, and achieves competitive performance
on 2D-to-3D video pose estimation. Code, video, and supplementary information
is available at:
\href{http://www.juanrojas.net/gast/}{http://www.juanrojas.net/gast/}
- Abstract(参考訳): 時空間情報は3次元ポーズ推定における咬合と深さの曖昧さを解決する鍵となる。
以前の手法では、時間的文脈か、固定長時空間情報を埋め込んだグローバルアーキテクチャに焦点が当てられていた。
これまで、様々な時空間列を同時かつ柔軟に捉え、実時間3次元ポーズ推定を実現するための効果的な提案は行われていない。
本研究では,人間の骨格における運動的制約(姿勢,局所運動的接続,対称性)の学習を,注意機構による局所的および大域的空間情報のモデル化により改善する。
単フレームおよび多フレーム推定に適応するために、拡張時間モデルを用いて様々な骨格配列を処理する。
また,相乗効果を達成するために,時間依存による空間意味論のインターリーブを慎重に設計する。
そこで本研究では,時間的畳み込みブロックとグラフアテンションブロックからなる簡易かつ有効なグラフアテンション時空間畳み込みネットワーク(gast-net)を提案する。
Human3.6MとHumanEva-I)とYouTubeビデオの2つの挑戦的なベンチマークデータセットの実験では、我々のアプローチは深度あいまいさと自己閉塞性を効果的に軽減し、半上半身推定に一般化し、2Dから3Dビデオのポーズ推定における競合性能を実現する。
コード、ビデオ、補足情報は、 \href{http://www.juanrojas.net/gast/}{http://www.juanrojas.net/gast/} で入手できる。
関連論文リスト
- Dynamic 3D Point Cloud Sequences as 2D Videos [87.39667425671821]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Enhanced 3D Human Pose Estimation from Videos by using Attention-Based
Neural Network with Dilated Convolutions [12.900524511984798]
従来のネットワークや制約の形式が、どのように注意の枠組みに組み込むことができるのかを体系的な設計で示します。
拡張畳み込みのマルチスケール構造により,時間受容場を適応させることにより,これを実現する。
提案手法は,Human3.6Mデータセット上での関節位置誤差の平均を33.4mmに減らし,最先端性能を達成し,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2021-03-04T17:26:51Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。