論文の概要: Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2405.18700v1
- Date: Wed, 29 May 2024 02:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:04:06.824327
- Title: Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction
- Title(参考訳): シーン認識型ニューラルヒューマンモーション予測のためのマルチコンディション潜時拡散ネットワーク
- Authors: Xuehao Gao, Yang Yang, Yang Wu, Shaoyi Du, Auo-Jun Qi,
- Abstract要約: 現実世界の人間の動きはゴール指向であり、周囲のシーンの空間的レイアウトの影響を強く受けている。
本稿では,多条件共同推論問題として人間の動作予測タスクを再構成するマルチコンディション遅延拡散ネットワーク(MCLD)を提案する。
我々のネットワークは、現実的かつ多様な予測において最先端の手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 18.085229713499004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring 3D human motion is fundamental in many applications, including understanding human activity and analyzing one's intention. While many fruitful efforts have been made to human motion prediction, most approaches focus on pose-driven prediction and inferring human motion in isolation from the contextual environment, thus leaving the body location movement in the scene behind. However, real-world human movements are goal-directed and highly influenced by the spatial layout of their surrounding scenes. In this paper, instead of planning future human motion in a 'dark' room, we propose a Multi-Condition Latent Diffusion network (MCLD) that reformulates the human motion prediction task as a multi-condition joint inference problem based on the given historical 3D body motion and the current 3D scene contexts. Specifically, instead of directly modeling joint distribution over the raw motion sequences, MCLD performs a conditional diffusion process within the latent embedding space, characterizing the cross-modal mapping from the past body movement and current scene context condition embeddings to the future human motion embedding. Extensive experiments on large-scale human motion prediction datasets demonstrate that our MCLD achieves significant improvements over the state-of-the-art methods on both realistic and diverse predictions.
- Abstract(参考訳): 3次元の人間の動きを推定することは、人間の活動を理解し、その人の意図を分析するなど、多くの応用において基本である。
人間の動きを予測するために多くの実りある努力がなされてきたが、ほとんどのアプローチはポーズ駆動の予測に焦点を合わせ、文脈環境から離れて人間の動きを推測することで、シーン内の身体の位置運動を残している。
しかし、現実世界の人間の動きはゴール指向であり、周囲のシーンの空間的レイアウトの影響を強く受けている。
本稿では,従来の3次元体の動きと現在の3次元シーンのコンテキストに基づいて,人間の動作予測タスクを多条件共同推論問題として再構成するマルチコンディション潜伏拡散ネットワーク(MCLD)を提案する。
具体的には、MCLDは、原動列上での関節分布を直接モデル化する代わりに、後続の埋め込み空間内で条件拡散プロセスを実行し、過去の体の動きと現在のシーン条件の埋め込みから将来の人間の動き埋め込みへの相互マッピングを特徴付ける。
大規模人間の動き予測データセットに関する大規模な実験により、我々のMCLDは、現実的および多種多様な予測に関する最先端の手法よりも大幅に改善されていることが示された。
関連論文リスト
- MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Scene-aware Human Motion Forecasting via Mutual Distance Prediction [13.067687949642641]
本研究では,人体とシーン間の相互距離による人間とシーンの相互作用をモデル化する。
このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。
2つのステップでパイプラインを構築し、まず将来の相互距離を予測し、次に将来の人間の動きを予測する。
論文 参考訳(メタデータ) (2023-10-01T08:32:46Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。
人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。
我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文 参考訳(メタデータ) (2021-05-31T09:05:50Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。