論文の概要: Multiscale Spatio-Temporal Graph Neural Networks for 3D Skeleton-Based
Motion Prediction
- arxiv url: http://arxiv.org/abs/2108.11244v1
- Date: Wed, 25 Aug 2021 14:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 16:10:50.500150
- Title: Multiscale Spatio-Temporal Graph Neural Networks for 3D Skeleton-Based
Motion Prediction
- Title(参考訳): 3次元骨格に基づく動き予測のためのマルチスケール時空間グラフニューラルネットワーク
- Authors: Maosen Li, Siheng Chen, Yangheng Zhao, Ya Zhang, Yanfeng Wang, Qi Tian
- Abstract要約: 本稿では,次世代の3次元骨格型人間のポーズを予測するため,マルチスケール・テンポラルグラフニューラルネットワーク(MST-GNN)を提案する。
MST-GNNは、短期および長期の動作予測において最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 92.16318571149553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a multiscale spatio-temporal graph neural network (MST-GNN) to
predict the future 3D skeleton-based human poses in an action-category-agnostic
manner. The core of MST-GNN is a multiscale spatio-temporal graph that
explicitly models the relations in motions at various spatial and temporal
scales. Different from many previous hierarchical structures, our multiscale
spatio-temporal graph is built in a data-adaptive fashion, which captures
nonphysical, yet motion-based relations. The key module of MST-GNN is a
multiscale spatio-temporal graph computational unit (MST-GCU) based on the
trainable graph structure. MST-GCU embeds underlying features at individual
scales and then fuses features across scales to obtain a comprehensive
representation. The overall architecture of MST-GNN follows an encoder-decoder
framework, where the encoder consists of a sequence of MST-GCUs to learn the
spatial and temporal features of motions, and the decoder uses a graph-based
attention gate recurrent unit (GA-GRU) to generate future poses. Extensive
experiments are conducted to show that the proposed MST-GNN outperforms
state-of-the-art methods in both short and long-term motion prediction on the
datasets of Human 3.6M, CMU Mocap and 3DPW, where MST-GNN outperforms previous
works by 5.33% and 3.67% of mean angle errors in average for short-term and
long-term prediction on Human 3.6M, and by 11.84% and 4.71% of mean angle
errors for short-term and long-term prediction on CMU Mocap, and by 1.13% of
mean angle errors on 3DPW in average, respectively. We further investigate the
learned multiscale graphs for interpretability.
- Abstract(参考訳): 本研究では,3次元骨格型人体ポーズを行動カテゴリーに依存しない形で予測するためのマルチスケール時空間グラフニューラルネットワーク(MST-GNN)を提案する。
MST-GNNのコアはマルチスケールの時空間グラフであり、様々な空間的・時間的スケールにおける動きの関係を明示的にモデル化する。
従来の階層構造とは異なり、我々のマルチスケール時空間グラフはデータ適応型で構築され、非物理的だが動きに基づく関係を捉える。
MST-GNNのキーモジュールは、トレーニング可能なグラフ構造に基づくマルチスケール時空間グラフ計算ユニット(MST-GCU)である。
mst-gcuは下位の機能を個々のスケールに組み込んで、スケールにまたがって機能を融合して包括的な表現を得る。
MST-GNNの全体的なアーキテクチャはエンコーダ・デコーダ・フレームワークに従い、エンコーダは動きの空間的特徴と時間的特徴を学習するためにMST-GCUのシーケンスで構成され、デコーダはグラフベースのアテンションゲートリカレント・ユニット(GA-GRU)を使用して将来のポーズを生成する。
Extensive experiments are conducted to show that the proposed MST-GNN outperforms state-of-the-art methods in both short and long-term motion prediction on the datasets of Human 3.6M, CMU Mocap and 3DPW, where MST-GNN outperforms previous works by 5.33% and 3.67% of mean angle errors in average for short-term and long-term prediction on Human 3.6M, and by 11.84% and 4.71% of mean angle errors for short-term and long-term prediction on CMU Mocap, and by 1.13% of mean angle errors on 3DPW in average, respectively.
さらに,解析可能なマルチスケールグラフについても検討する。
関連論文リスト
- STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。
具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。
提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure
Graph Perspective [48.00240550685946]
現在の最先端グラフニューラルネットワーク(GNN)ベースの予測手法は、通常、シリーズ間(空間)のダイナミックスとシリーズ内(時間)の依存関係をキャプチャするために、グラフネットワーク(GCNなど)と時間ネットワーク(LSTMなど)の両方を必要とする。
提案するフーリエグラフ演算子(FGO)を積み重ねて,フーリエ空間で行列乗算を行うことにより,新しいフーリエグラフニューラルネットワーク(FourierGNN)を提案する。
7つのデータセットに対する実験は、より効率が良く、パラメータも少ないという優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-10T17:13:26Z) - Multi-Graph Convolution Network for Pose Forecasting [0.8057006406834467]
本稿では,3次元ポーズ予測のための多グラフ畳み込みネットワーク(MGCN)を提案する。
MGCNは、ポーズシーケンスのための拡張グラフを導入することで、空間情報と時間情報を同時にキャプチャする。
評価では,MGCNはポーズ予測において最先端の予測よりも優れていた。
論文 参考訳(メタデータ) (2023-04-11T03:59:43Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs [65.18780403244178]
動的グラフニューラル正規微分方程式(MTGODE)を用いた多変量時系列予測連続モデルを提案する。
具体的には、まず、時間進化するノードの特徴と未知のグラフ構造を持つ動的グラフに多変量時系列を抽象化する。
そして、欠落したグラフトポロジを補完し、空間的および時間的メッセージパッシングを統一するために、ニューラルODEを設計、解決する。
論文 参考訳(メタデータ) (2022-02-17T02:17:31Z) - DMS-GCN: Dynamic Mutiscale Spatiotemporal Graph Convolutional Networks
for Human Motion Prediction [8.142947808507365]
動作予測のためのフィードフォワードディープニューラルネットワークを提案する。
モデル全体がすべてのアクションに適合し、エンコーダ・デコーダのフレームワークに従う。
提案手法は,Human3.6MとCMU Mocapのデータセット上でSOTA法より優れている。
論文 参考訳(メタデータ) (2021-12-20T07:07:03Z) - Space-Time Graph Neural Networks [104.55175325870195]
本研究では、時空間グラフニューラルネットワーク(ST-GNN)を導入し、時間変動ネットワークデータの時空間トポロジを共同処理する。
解析の結果,システムのネットワークトポロジと時間進化の変動はST-GNNの性能に大きく影響しないことがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:08:44Z) - Spatio-Temporal Graph Scattering Transform [54.52797775999124]
グラフニューラルネットワークは、十分な高品質のトレーニングデータがないために、現実のシナリオでは実用的ではないかもしれない。
我々は時間的データを解析するための数学的に設計された新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2020-12-06T19:49:55Z) - Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human
Motion Prediction [102.9787019197379]
本研究では3次元骨格に基づく人体動作を予測するために,新しい動的マルチスケールグラフニューラルネットワーク(DMGNN)を提案する。
モデルはアクションカテゴリに依存しないもので、エンコーダ/デコーダフレームワークに従う。
提案したDMGNNは,短期および長期の予測において最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-03-17T02:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。