論文の概要: GIMO: Gaze-Informed Human Motion Prediction in Context
- arxiv url: http://arxiv.org/abs/2204.09443v1
- Date: Wed, 20 Apr 2022 13:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:44:40.142416
- Title: GIMO: Gaze-Informed Human Motion Prediction in Context
- Title(参考訳): GIMO:注視による人間の動きの予測
- Authors: Yang Zheng, Yanchao Yang, Kaichun Mo, Jiaman Li, Tao Yu, Yebin Liu,
Karen Liu, Leonidas J. Guibas
- Abstract要約: 本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 75.52839760700833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting human motion is critical for assistive robots and AR/VR
applications, where the interaction with humans needs to be safe and
comfortable. Meanwhile, an accurate prediction depends on understanding both
the scene context and human intentions. Even though many works study
scene-aware human motion prediction, the latter is largely underexplored due to
the lack of ego-centric views that disclose human intent and the limited
diversity in motion and scenes. To reduce the gap, we propose a large-scale
human motion dataset that delivers high-quality body pose sequences, scene
scans, as well as ego-centric views with eye gaze that serves as a surrogate
for inferring human intent. By employing inertial sensors for motion capture,
our data collection is not tied to specific scenes, which further boosts the
motion dynamics observed from our subjects. We perform an extensive study of
the benefits of leveraging eye gaze for ego-centric human motion prediction
with various state-of-the-art architectures. Moreover, to realize the full
potential of gaze, we propose a novel network architecture that enables
bidirectional communication between the gaze and motion branches. Our network
achieves the top performance in human motion prediction on the proposed
dataset, thanks to the intent information from the gaze and the denoised gaze
feature modulated by the motion. The proposed dataset and our network
implementation will be publicly available.
- Abstract(参考訳): 人間の動きを予測することは、ロボットやar/vrアプリケーションにとって重要であり、人間との対話は安全で快適である必要がある。
一方、正確な予測はシーンコンテキストと人間の意図の両方を理解することに依存する。
多くの作品が人間の動きの予測を研究しているが、後者は人間の意図を明かす自我中心の見解の欠如と、動きやシーンの多様性の制限のため、ほとんど未熟である。
このギャップを小さくするために,高品質なボディポーズシーケンス,シーンスキャン,および人間の意図を推測するための代理として機能する目視付きエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
運動キャプチャーに慣性センサーを用いることで、データ収集は特定のシーンに縛られず、被験者が観察する動きのダイナミクスをさらに強化する。
我々は,様々な最先端アーキテクチャを用いた自我中心の人間の運動予測における視線の活用の利点を広範囲に検討した。
さらに,視線の完全な可能性を実現するために,視線と動きの分岐間の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
本ネットワークは,視線からの意図情報と,運動によって変調された視線特徴により,提案したデータセット上での人間の動作予測の最高性能を達成する。
提案するデータセットとネットワーク実装が公開される予定だ。
関連論文リスト
- Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction [46.309401205546656]
現実世界の人間の動きはゴール指向であり、周囲のシーンの空間的レイアウトの影響を強く受けている。
本稿では,多条件共同推論問題として人間の動作予測タスクを再構成するマルチコンディション遅延拡散ネットワーク(MCLD)を提案する。
我々のネットワークは、現実的かつ多様な予測において最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-29T02:21:31Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。
このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。
本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文 参考訳(メタデータ) (2024-03-27T21:43:12Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction [10.982807572404166]
本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。
提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。
提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Socially and Contextually Aware Human Motion and Pose Forecasting [48.083060946226]
本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T06:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。