論文の概要: GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction
- arxiv url: http://arxiv.org/abs/2312.12090v1
- Date: Tue, 19 Dec 2023 12:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:52:14.099707
- Title: GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction
- Title(参考訳): GazeMoDiff:確率的人間の動き予測のための注視誘導拡散モデル
- Authors: Haodong Yan and Zhiming Hu and Syn Schmitt and Andreas Bulling
- Abstract要約: 既存の方法は、観測された過去の動きからのみ、身体の動きを合成している。
本稿では、人間の動きを生成する新しい視線誘導聴覚モデルであるGazeMoDiffを紹介する。
私たちの研究は、視線誘導による人間の動き予測に向けての第一歩を踏み出します。
- 参考スコア(独自算出の注目度): 11.997928273335129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion prediction is important for virtual reality (VR) applications,
e.g., for realistic avatar animation. Existing methods have synthesised body
motion only from observed past motion, despite the fact that human gaze is
known to correlate strongly with body movements and is readily available in
recent VR headsets. We present GazeMoDiff -- a novel gaze-guided denoising
diffusion model to generate stochastic human motions. Our method first uses a
graph attention network to learn the spatio-temporal correlations between eye
gaze and human movements and to fuse them into cross-modal gaze-motion
features. These cross-modal features are injected into a noise prediction
network via a cross-attention mechanism and progressively denoised to generate
realistic human full-body motions. Experimental results on the MoGaze and GIMO
datasets demonstrate that our method outperforms the state-of-the-art methods
by a large margin in terms of average displacement error (15.03% on MoGaze and
9.20% on GIMO). We further conducted an online user study to compare our method
with state-of-the-art methods and the responses from 23 participants validate
that the motions generated by our method are more realistic than those from
other methods. Taken together, our work makes a first important step towards
gaze-guided stochastic human motion prediction and guides future work on this
important topic in VR research.
- Abstract(参考訳): 人間の動き予測は、現実のアバターアニメーションなど、仮想現実(vr)アプリケーションにとって重要である。
既存の方法は、人間の視線が身体の動きと強く相関していることが知られており、近年のVRヘッドセットで容易に利用できるにもかかわらず、過去の動きからのみ体の動きを合成している。
確率的人間の動きを生成するために、新しい視線誘導発声拡散モデル「gazagemodiff」を提案する。
まず,グラフアテンションネットワークを用いて眼球運動と眼球運動の時空間相関を学習し,それらをクロスモーダルな眼球運動に融合させる。
これらのクロスモーダル特徴は、クロスアテンション機構を介してノイズ予測ネットワークに注入され、徐々に消音され、現実的な人間の全身運動を生成する。
MoGaze および GIMO データセットの実験結果から,本手法は平均変位誤差(15.03%,GIMO 9.20%)において最先端手法よりも高い性能を示した。
さらに,提案手法を最先端手法と比較するオンラインユーザ調査を行い,23名からの回答から,提案手法が生成する動作が他の手法よりも現実的であることを検証した。
総合すると、われわれの研究は視線誘導の確率的人間の動き予測に向けて最初の重要な一歩を踏み出し、vr研究におけるこの重要なトピックに関する今後の研究を導く。
関連論文リスト
- MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - Towards Practical Human Motion Prediction with LiDAR Point Clouds [15.715130864327792]
我々は,最初のシングルLiDARに基づく3次元人体動作予測手法であるtextitLiDAR-HMPを提案する。
LiDAR-HMPは、入力として生のLiDARポイントクラウドを受け取り、将来の3D人間のポーズを直接予測する。
提案手法は,2つの公開ベンチマーク上での最先端性能を実現し,実世界の展開において顕著な堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2024-08-15T15:10:01Z) - GazeMotion: Gaze-guided Human Motion Forecasting [10.982807572404166]
本稿では、過去の人間のポーズ情報と人間の目視情報を組み合わせた、人間の動き予測の新しい手法であるGazeMotionを紹介する。
人間の目と身体の動きが密接に調整されていることを示す行動科学のエビデンスにインスパイアされたGazeMotionは、まず過去の視線から将来の視線を予測し、その後予測された将来の視線と過去のポーズを視線のグラフに融合し、最後に身体の動きを予測するための残差グラフ畳み込みネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-14T21:38:00Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。