論文の概要: GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction
- arxiv url: http://arxiv.org/abs/2312.12090v1
- Date: Tue, 19 Dec 2023 12:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:52:14.099707
- Title: GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction
- Title(参考訳): GazeMoDiff:確率的人間の動き予測のための注視誘導拡散モデル
- Authors: Haodong Yan and Zhiming Hu and Syn Schmitt and Andreas Bulling
- Abstract要約: 既存の方法は、観測された過去の動きからのみ、身体の動きを合成している。
本稿では、人間の動きを生成する新しい視線誘導聴覚モデルであるGazeMoDiffを紹介する。
私たちの研究は、視線誘導による人間の動き予測に向けての第一歩を踏み出します。
- 参考スコア(独自算出の注目度): 11.997928273335129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion prediction is important for virtual reality (VR) applications,
e.g., for realistic avatar animation. Existing methods have synthesised body
motion only from observed past motion, despite the fact that human gaze is
known to correlate strongly with body movements and is readily available in
recent VR headsets. We present GazeMoDiff -- a novel gaze-guided denoising
diffusion model to generate stochastic human motions. Our method first uses a
graph attention network to learn the spatio-temporal correlations between eye
gaze and human movements and to fuse them into cross-modal gaze-motion
features. These cross-modal features are injected into a noise prediction
network via a cross-attention mechanism and progressively denoised to generate
realistic human full-body motions. Experimental results on the MoGaze and GIMO
datasets demonstrate that our method outperforms the state-of-the-art methods
by a large margin in terms of average displacement error (15.03% on MoGaze and
9.20% on GIMO). We further conducted an online user study to compare our method
with state-of-the-art methods and the responses from 23 participants validate
that the motions generated by our method are more realistic than those from
other methods. Taken together, our work makes a first important step towards
gaze-guided stochastic human motion prediction and guides future work on this
important topic in VR research.
- Abstract(参考訳): 人間の動き予測は、現実のアバターアニメーションなど、仮想現実(vr)アプリケーションにとって重要である。
既存の方法は、人間の視線が身体の動きと強く相関していることが知られており、近年のVRヘッドセットで容易に利用できるにもかかわらず、過去の動きからのみ体の動きを合成している。
確率的人間の動きを生成するために、新しい視線誘導発声拡散モデル「gazagemodiff」を提案する。
まず,グラフアテンションネットワークを用いて眼球運動と眼球運動の時空間相関を学習し,それらをクロスモーダルな眼球運動に融合させる。
これらのクロスモーダル特徴は、クロスアテンション機構を介してノイズ予測ネットワークに注入され、徐々に消音され、現実的な人間の全身運動を生成する。
MoGaze および GIMO データセットの実験結果から,本手法は平均変位誤差(15.03%,GIMO 9.20%)において最先端手法よりも高い性能を示した。
さらに,提案手法を最先端手法と比較するオンラインユーザ調査を行い,23名からの回答から,提案手法が生成する動作が他の手法よりも現実的であることを検証した。
総合すると、われわれの研究は視線誘導の確率的人間の動き予測に向けて最初の重要な一歩を踏み出し、vr研究におけるこの重要なトピックに関する今後の研究を導く。
関連論文リスト
- Scaling Up Dynamic Human-Scene Interaction Modeling [60.21472701182632]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - AdvMT: Adversarial Motion Transformer for Long-term Human Motion
Prediction [2.837740438355204]
本稿では,AdvMT(Adversarial Motion Transformer)について述べる。
逆行訓練では,予測の不要な成果物を効果的に削減し,より現実的で流動的な人間の動作の学習を確実にする。
論文 参考訳(メタデータ) (2024-01-10T09:15:50Z) - Pose2Gaze: Generating Realistic Human Gaze Behaviour from Full-body
Poses using an Eye-body Coordination Model [12.612396358741522]
視線は頭部方向や全身運動と強く相関しており,身体運動と眼球運動の間には顕著な遅延がある。
次に、Pose2Gazeを紹介します。これは、まず、畳み込みニューラルネットワークと時間グラフ畳み込みニューラルネットワークを使用して、それぞれ方向とフルボディのポーズから特徴を抽出する、新しいアイボディコーディネートモデルです。
論文 参考訳(メタデータ) (2023-12-19T10:55:46Z) - Universal Humanoid Motion Representations for Physics-Based Control [74.53927919796139]
本稿では、ヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現について述べる。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - PACE: Data-Driven Virtual Agent Interaction in Dense and Cluttered
Environments [69.03289331433874]
PACEは,高密度で散らばった3Dシーン全体と対話し,移動するために,モーションキャプチャーされた仮想エージェントを改良する新しい手法である。
本手法では,環境中の障害物や物体に適応するために,仮想エージェントの動作シーケンスを必要に応じて変更する。
提案手法を先行動作生成技術と比較し,本手法の利点を知覚的研究と身体的妥当性の指標と比較した。
論文 参考訳(メタデータ) (2023-03-24T19:49:08Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Multi-grained Trajectory Graph Convolutional Networks for
Habit-unrelated Human Motion Prediction [4.070072825448614]
習慣非関連な人間の運動予測のために, マルチグレイングラフ畳み込みネットワークベースの軽量フレームワークを提案する。
左利きの動作を生成するための新しい動き生成法を提案し,人間の習慣に偏りのない動きをより良くモデル化した。
humantemporal3.6m と cmu mocap を含む挑戦的データセットの実験結果は、提案モデルが0.12倍以下のパラメータで最先端を上回っていることを示している。
論文 参考訳(メタデータ) (2020-12-23T09:41:50Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。