論文の概要: Staged Contact-Aware Global Human Motion Forecasting
- arxiv url: http://arxiv.org/abs/2309.08947v1
- Date: Sat, 16 Sep 2023 10:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:24:12.125332
- Title: Staged Contact-Aware Global Human Motion Forecasting
- Title(参考訳): 段階的接触型グローバルヒューマンモーション予測
- Authors: Luca Scofano, Alessio Sampieri, Elisabeth Schiele, Edoardo De Matteis,
Laura Leal-Taix\'e, Fabio Galasso
- Abstract要約: バーチャルリアリティー、ロボティクス、スポーツなどの多様体応用には、シーン認識のグローバルな人間の動き予測が不可欠である。
本稿では,3次元環境下でのグローバルな人間の動きを予測するための新しい3段階パイプラインSTAGを提案する。
STAGは、シーン認識のGTA-IMデータセット上で、ポーズと軌道予測の全体的な1.8%と16.2%の改善を達成する。
- 参考スコア(独自算出の注目度): 7.930326095134298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene-aware global human motion forecasting is critical for manifold
applications, including virtual reality, robotics, and sports. The task
combines human trajectory and pose forecasting within the provided scene
context, which represents a significant challenge.
So far, only Mao et al. NeurIPS'22 have addressed scene-aware global motion,
cascading the prediction of future scene contact points and the global motion
estimation. They perform the latter as the end-to-end forecasting of future
trajectories and poses. However, end-to-end contrasts with the coarse-to-fine
nature of the task and it results in lower performance, as we demonstrate here
empirically.
We propose a STAGed contact-aware global human motion forecasting STAG, a
novel three-stage pipeline for predicting global human motion in a 3D
environment. We first consider the scene and the respective human interaction
as contact points. Secondly, we model the human trajectory forecasting within
the scene, predicting the coarse motion of the human body as a whole. The third
and last stage matches a plausible fine human joint motion to complement the
trajectory considering the estimated contacts.
Compared to the state-of-the-art (SoA), STAG achieves a 1.8% and 16.2%
overall improvement in pose and trajectory prediction, respectively, on the
scene-aware GTA-IM dataset. A comprehensive ablation study confirms the
advantages of staged modeling over end-to-end approaches. Furthermore, we
establish the significance of a newly proposed temporal counter called the
"time-to-go", which tells how long it is before reaching scene contact and
endpoints. Notably, STAG showcases its ability to generalize to datasets
lacking a scene and achieves a new state-of-the-art performance on CMU-Mocap,
without leveraging any social cues. Our code is released at:
https://github.com/L-Scofano/STAG
- Abstract(参考訳): バーチャルリアリティ、ロボティクス、スポーツなど、マニホールドアプリケーションではシーン認識による世界的人間の動き予測が重要である。
このタスクは人間の軌道を合成し、提供されたシーンコンテキスト内で予測を行う。
今のところはMaoらのみ。
NeurIPS'22はシーン認識のグローバルな動きに対処し、将来のシーン接触点の予測とグローバルな動きの推定をカスケードした。
後者は、将来の軌道とポーズのエンドツーエンド予測として実行される。
しかし、エンド・ツー・エンドはタスクの粗さと対照的であり、経験的に示すようにパフォーマンスが低下する。
本稿では,3次元環境下でのグローバルな人間の動きを予測するための新しい3段階パイプラインSTAGを提案する。
まず、シーンと人間同士の相互作用を接触点とみなす。
第2に,人体の粗い動きを予測し,シーン内で予測する人間の軌跡をモデル化する。
3段目と最後の段目は、推定された接触を考慮した軌道を補完するために、考えられる微細なヒト関節運動と一致する。
最先端(SoA)と比較すると、STAGはシーン認識のGTA-IMデータセットでそれぞれ1.8%と16.2%の改善を達成している。
包括的なアブレーション研究は、エンドツーエンドアプローチよりもステージドモデリングの利点を確認している。
さらに,シーンコンタクトやエンドポイントに到達するまでの時間を示す"time-to-go"と呼ばれる新たに提案された時間カウンタの重要性も確認した。
特にSTAGは、シーンを欠いたデータセットに一般化する機能を示し、CMU-Mocapの最先端のパフォーマンスをソーシャルな手がかりを活用せずに実現している。
私たちのコードは、https://github.com/L-Scofano/STAGでリリースされています。
関連論文リスト
- Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Scene-aware Human Motion Forecasting via Mutual Distance Prediction [13.067687949642641]
本研究では,人体とシーン間の相互距離による人間とシーンの相互作用をモデル化する。
このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。
2つのステップでパイプラインを構築し、まず将来の相互距離を予測し、次に将来の人間の動きを予測する。
論文 参考訳(メタデータ) (2023-10-01T08:32:46Z) - Contact-aware Human Motion Forecasting [87.04827994793823]
我々は,3Dシーンと過去の人間の動作を与えられた将来の人間のポーズを予測することで,シーン認識型3Dモーション予測の課題に取り組む。
提案手法は,現在最先端のヒトの動作予測と,合成データと実データの両方においてヒトの合成手法より優れる。
論文 参考訳(メタデータ) (2022-10-08T07:53:19Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Socially and Contextually Aware Human Motion and Pose Forecasting [48.083060946226]
本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T06:12:13Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。