論文の概要: GPRAR: Graph Convolutional Network based Pose Reconstruction and Action
Recognition for Human Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2103.14113v1
- Date: Thu, 25 Mar 2021 20:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 01:51:34.493524
- Title: GPRAR: Graph Convolutional Network based Pose Reconstruction and Action
Recognition for Human Trajectory Prediction
- Title(参考訳): gprar: グラフ畳み込みネットワークによるポーズ再構成と行動認識による人間の軌道予測
- Authors: Manh Huynh, Gita Alaghband
- Abstract要約: 既存の予測モデルは、観察がしばしば騒がしい現実世界の設定でエラーを起こしやすい。
GPRARは、人間の軌道予測のためのグラフ畳み込みネットワークベースのポーズ再構築とアクション認識です。
JAADおよびTITANデータセットのノイズ観測により,GPRARは予測精度を最大22%,50%向上させることを示した。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prediction with high accuracy is essential for various applications such as
autonomous driving. Existing prediction models are easily prone to errors in
real-world settings where observations (e.g. human poses and locations) are
often noisy. To address this problem, we introduce GPRAR, a graph convolutional
network based pose reconstruction and action recognition for human trajectory
prediction. The key idea of GPRAR is to generate robust features: human poses
and actions, under noisy scenarios. To this end, we design GPRAR using two
novel sub-networks: PRAR (Pose Reconstruction and Action Recognition) and FA
(Feature Aggregator). PRAR aims to simultaneously reconstruct human poses and
action features from the coherent and structural properties of human skeletons.
It is a network of an encoder and two decoders, each of which comprises
multiple layers of spatiotemporal graph convolutional networks. Moreover, we
propose a Feature Aggregator (FA) to channel-wise aggregate the learned
features: human poses, actions, locations, and camera motion using
encoder-decoder based temporal convolutional neural networks to predict future
locations. Extensive experiments on the commonly used datasets: JAAD [13] and
TITAN [19] show accuracy improvements of GPRAR over state-of-theart models.
Specifically, GPRAR improves the prediction accuracy up to 22% and 50% under
noisy observations on JAAD and TITAN datasets, respectively
- Abstract(参考訳): 精度の高い予測は、自動運転のような様々な用途に不可欠である。
既存の予測モデルは、観測(例:観測)を行う現実世界の設定でエラーを起こしやすい。
人間のポーズや場所)は騒がしいことが多い。
この問題に対処するために,人間軌道予測のためのポーズ再構成と行動認識に基づくグラフ畳み込みネットワークであるgprarを提案する。
GPRARのキーとなるアイデアは、ノイズの多いシナリオの下で、人間のポーズとアクションという堅牢な機能を生成することだ。
そこで我々は,2つの新しいサブネットワークであるPRAR(Pose Reconstruction and Action Recognition)とFA(Feature Aggregator)を用いてGPRARを設計する。
PRARは人間の骨格の一貫性と構造的特性から人間のポーズと行動の特徴を同時に再構築することを目的としている。
エンコーダと2つのデコーダのネットワークであり、それぞれが時空間グラフ畳み込みネットワークの複数の層で構成されている。
さらに,エンコーダ・デコーダに基づく時間畳み込みニューラルネットワークを用いて,人間のポーズ,行動,位置,カメラの動きをチャネル的に集約し,将来の位置を予測する機能アグリゲータ(FA)を提案する。
一般的なデータセットであるjaad [13]とtitan [19]の広範な実験では、最先端モデルよりもgprarの精度が向上している。
特に、gprarはjaadデータセットとtitanデータセットのノイズ観測において、予測精度を22%と50%向上させる。
関連論文リスト
- Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-10-25T21:40:42Z) - MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human
Motion Prediction [34.565986275769745]
本稿では,人間のポーズ予測のためのマルチスケール残差グラフ畳み込みネットワーク(MSR-GCN)を提案する。
提案手法は、Human3.6MデータセットとCMU Mocapデータセットの2つの標準ベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-08-16T15:26:23Z) - Development of Human Motion Prediction Strategy using Inception Residual
Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。
我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。
提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文 参考訳(メタデータ) (2021-08-09T12:49:48Z) - An Adversarial Human Pose Estimation Network Injected with Graph
Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。
ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文 参考訳(メタデータ) (2021-03-29T12:07:08Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human
Motion Prediction [102.9787019197379]
本研究では3次元骨格に基づく人体動作を予測するために,新しい動的マルチスケールグラフニューラルネットワーク(DMGNN)を提案する。
モデルはアクションカテゴリに依存しないもので、エンコーダ/デコーダフレームワークに従う。
提案したDMGNNは,短期および長期の予測において最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-03-17T02:49:51Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。