論文の概要: Socially and Contextually Aware Human Motion and Pose Forecasting
- arxiv url: http://arxiv.org/abs/2007.06843v1
- Date: Tue, 14 Jul 2020 06:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:42:29.523371
- Title: Socially and Contextually Aware Human Motion and Pose Forecasting
- Title(参考訳): 社会的・文脈的に認知される人間の動きとポーズ予測
- Authors: Vida Adeli, Ehsan Adeli, Ian Reid, Juan Carlos Niebles, Hamid
Rezatofighi
- Abstract要約: 本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 48.083060946226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smooth and seamless robot navigation while interacting with humans depends on
predicting human movements. Forecasting such human dynamics often involves
modeling human trajectories (global motion) or detailed body joint movements
(local motion). Prior work typically tackled local and global human movements
separately. In this paper, we propose a novel framework to tackle both tasks of
human motion (or trajectory) and body skeleton pose forecasting in a unified
end-to-end pipeline. To deal with this real-world problem, we consider
incorporating both scene and social contexts, as critical clues for this
prediction task, into our proposed framework. To this end, we first couple
these two tasks by i) encoding their history using a shared Gated Recurrent
Unit (GRU) encoder and ii) applying a metric as loss, which measures the source
of errors in each task jointly as a single distance. Then, we incorporate the
scene context by encoding a spatio-temporal representation of the video data.
We also include social clues by generating a joint feature representation from
motion and pose of all individuals from the scene using a social pooling layer.
Finally, we use a GRU based decoder to forecast both motion and skeleton pose.
We demonstrate that our proposed framework achieves a superior performance
compared to several baselines on two social datasets.
- Abstract(参考訳): 人間と対話しながらスムーズでシームレスなロボットナビゲーションは、人間の動きを予測することに依存する。
このような人間のダイナミクスの予測には、人間の軌跡(球運動)や詳細な体の動き(局所運動)をモデル化することが多い。
先行研究は通常、地域と世界の動きを別々に取り組んだ。
本稿では,人間の動作(あるいは軌道)と身体骨格のポーズ予測の両方を統一されたエンドツーエンドパイプラインで行うための新しい枠組みを提案する。
この現実的な問題に対処するため、我々は、この予測タスクの重要な手がかりとして、シーンと社会的文脈の両方を、提案フレームワークに組み込むことを検討する。
この2つのタスクを 一つにまとめます
一 共有GRUエンコーダ及び共有GRUエンコーダを用いてその履歴を符号化すること
二 基準を損失として適用し、各業務における誤差の源泉を単一の距離として連続的に測定すること。
次に,映像データの時空間表現を符号化することでシーンコンテキストを組み込む。
また,ソーシャル・プーリング・レイヤを用いて,人物の動作とポーズから共同特徴表現を生成することにより,社会的手がかりも含んでいる。
最後に、GRUベースのデコーダを使用して、動きと骨格のポーズを予測します。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を示す。
関連論文リスト
- Staged Contact-Aware Global Human Motion Forecasting [7.930326095134298]
バーチャルリアリティー、ロボティクス、スポーツなどの多様体応用には、シーン認識のグローバルな人間の動き予測が不可欠である。
本稿では,3次元環境下でのグローバルな人間の動きを予測するための新しい3段階パイプラインSTAGを提案する。
STAGは、シーン認識のGTA-IMデータセット上で、ポーズと軌道予測の全体的な1.8%と16.2%の改善を達成する。
論文 参考訳(メタデータ) (2023-09-16T10:47:48Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Contact-aware Human Motion Forecasting [87.04827994793823]
我々は,3Dシーンと過去の人間の動作を与えられた将来の人間のポーズを予測することで,シーン認識型3Dモーション予測の課題に取り組む。
提案手法は,現在最先端のヒトの動作予測と,合成データと実データの両方においてヒトの合成手法より優れる。
論文 参考訳(メタデータ) (2022-10-08T07:53:19Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z) - Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。
人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。
我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文 参考訳(メタデータ) (2021-05-31T09:05:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。