論文の概要: TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild
- arxiv url: http://arxiv.org/abs/2104.04029v1
- Date: Thu, 8 Apr 2021 20:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 00:09:09.132536
- Title: TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild
- Title(参考訳): TRiPOD:野生における人間の軌道と詩のダイナミクス予測
- Authors: Vida Adeli, Mahsa Ehsanpour, Ian Reid, Juan Carlos Niebles, Silvio
Savarese, Ehsan Adeli, Hamid Rezatofighi
- Abstract要約: TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
- 参考スコア(独自算出の注目度): 77.59069361196404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint forecasting of human trajectory and pose dynamics is a fundamental
building block of various applications ranging from robotics and autonomous
driving to surveillance systems. Predicting body dynamics requires capturing
subtle information embedded in the humans' interactions with each other and
with the objects present in the scene. In this paper, we propose a novel
TRajectory and POse Dynamics (nicknamed TRiPOD) method based on graph
attentional networks to model the human-human and human-object interactions
both in the input space and the output space (decoded future output). The model
is supplemented by a message passing interface over the graphs to fuse these
different levels of interactions efficiently. Furthermore, to incorporate a
real-world challenge, we propound to learn an indicator representing whether an
estimated body joint is visible/invisible at each frame, e.g. due to occlusion
or being outside the sensor field of view. Finally, we introduce a new
benchmark for this joint task based on two challenging datasets (PoseTrack and
3DPW) and propose evaluation metrics to measure the effectiveness of
predictions in the global space, even when there are invisible cases of joints.
Our evaluation shows that TRiPOD outperforms all prior work and
state-of-the-art specifically designed for each of the trajectory and pose
forecasting tasks.
- Abstract(参考訳): 人間の軌道とポーズダイナミクスの合同予測は、ロボット工学や自律運転から監視システムまで、様々な応用の基本的な構成要素である。
身体力学の予測には、人間の相互作用やシーンに存在する物体に埋め込まれた微妙な情報をキャプチャする必要がある。
本稿では,入力空間と出力空間の両方において,人間と物体の相互作用をモデル化するために,グラフ注意ネットワークに基づく新しい軌道・ポーズダイナミクス(ニックネームtripod)を提案する。
モデルは、これらの異なるレベルの相互作用を効率的に融合させるために、グラフ上のメッセージパッシングインターフェースによって補われます。
さらに,実世界の課題を取り入れるために,推定された身体関節が各フレームで可視・視認可能かどうかを示す指標を提示する。
閉ざされたり センサーの視野外だったりします
最後に,2つの挑戦的データセット(PoseTrackと3DPW)に基づいて,この共同作業のための新しいベンチマークを提案し,世界空間における予測の有効性を評価するための評価指標を提案する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - SCOUT: Socially-COnsistent and UndersTandable Graph Attention Network
for Trajectory Prediction of Vehicles and VRUs [0.0]
SCOUTは、グラフとしてシーンの柔軟で汎用的な表現を使用する新しい注意ベースのグラフニューラルネットワークです。
我々は3つの異なる注意メカニズムを探索し,鳥眼視と車載都市データを用いてそのスキームをテストする。
RounDデータセットの全く新しいシナリオでテストすることにより、モデルの柔軟性と転送性を評価します。
論文 参考訳(メタデータ) (2021-02-12T06:29:28Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Social-WaGDAT: Interaction-aware Trajectory Prediction via Wasserstein
Graph Double-Attention Network [29.289670231364788]
本稿では,マルチエージェント軌道予測のためのジェネリック生成ニューラルシステムを提案する。
また、車両軌道予測に効率的なキネマティック拘束層を応用した。
提案システムは,軌道予測のための3つの公開ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-14T20:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。