論文の概要: GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2312.12090v2
- Date: Mon, 21 Oct 2024 18:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:07.753117
- Title: GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction
- Title(参考訳): GazeMoDiff:確率的人間の動き予測のための注視誘導拡散モデル
- Authors: Haodong Yan, Zhiming Hu, Syn Schmitt, Andreas Bulling,
- Abstract要約: 本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。
提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。
提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 10.982807572404166
- License:
- Abstract: Human motion prediction is important for many virtual and augmented reality (VR/AR) applications such as collision avoidance and realistic avatar generation. Existing methods have synthesised body motion only from observed past motion, despite the fact that human eye gaze is known to correlate strongly with body movements and is readily available in recent VR/AR headsets. We present GazeMoDiff - a novel gaze-guided denoising diffusion model to generate stochastic human motions. Our method first uses a gaze encoder and a motion encoder to extract the gaze and motion features respectively, then employs a graph attention network to fuse these features, and finally injects the gaze-motion features into a noise prediction network via a cross-attention mechanism to progressively generate multiple reasonable human motions in the future. Extensive experiments on the MoGaze and GIMO datasets demonstrate that our method outperforms the state-of-the-art methods by a large margin in terms of multi-modal final displacement error (17.3% on MoGaze and 13.3% on GIMO). We further conducted a human study (N=21) and validated that the motions generated by our method were perceived as both more precise and more realistic than those of prior methods. Taken together, these results reveal the significant information content available in eye gaze for stochastic human motion prediction as well as the effectiveness of our method in exploiting this information.
- Abstract(参考訳): 人間の動き予測は、衝突回避や現実的なアバター生成など、多くのバーチャルおよび拡張現実(VR/AR)アプリケーションにとって重要である。
既存の方法は、人間の視線が身体の動きと強く相関していることが知られており、近年のVR/ARヘッドセットで利用できるようになったにもかかわらず、過去の動きからのみ体の動きを合成している。
本稿では,GazMoDiffについて紹介する。
提案手法はまず視線エンコーダとモーションエンコーダを用いて視線と運動の特徴をそれぞれ抽出し,その特徴を融合させるグラフアテンションネットワークを用いて,視覚運動特徴を雑音予測ネットワークに注入し,将来的な複数の合理的な人間の動作を段階的に生成する。
MoGaze と GIMO データセットの大規模な実験により,本手法は MoGaze の最大変位誤差 (17.3% と GIMO の13.3%) で最先端の手法よりも高い性能を示した。
さらに,N=21(N=21)を用いて,従来の方法よりも高精度かつ現実的な動作が認められた。
これらの結果から, 視線で得られる有意な情報内容が, 確率的人間の動作予測に有効であること, およびこの情報を利用した手法の有効性を明らかにした。
関連論文リスト
- MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - Towards Practical Human Motion Prediction with LiDAR Point Clouds [15.715130864327792]
我々は,最初のシングルLiDARに基づく3次元人体動作予測手法であるtextitLiDAR-HMPを提案する。
LiDAR-HMPは、入力として生のLiDARポイントクラウドを受け取り、将来の3D人間のポーズを直接予測する。
提案手法は,2つの公開ベンチマーク上での最先端性能を実現し,実世界の展開において顕著な堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2024-08-15T15:10:01Z) - GazeMotion: Gaze-guided Human Motion Forecasting [10.982807572404166]
本稿では、過去の人間のポーズ情報と人間の目視情報を組み合わせた、人間の動き予測の新しい手法であるGazeMotionを紹介する。
人間の目と身体の動きが密接に調整されていることを示す行動科学のエビデンスにインスパイアされたGazeMotionは、まず過去の視線から将来の視線を予測し、その後予測された将来の視線と過去のポーズを視線のグラフに融合し、最後に身体の動きを予測するための残差グラフ畳み込みネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-14T21:38:00Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。