論文の概要: Executing your Commands via Motion Diffusion in Latent Space
- arxiv url: http://arxiv.org/abs/2212.04048v3
- Date: Fri, 19 May 2023 08:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:23:38.259915
- Title: Executing your Commands via Motion Diffusion in Latent Space
- Title(参考訳): 静止空間における運動拡散によるコマンドの実行
- Authors: Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi
Yu, Gang Yu
- Abstract要約: 本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 51.64652463205012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a challenging task, conditional human motion generation, which
produces plausible human motion sequences according to various conditional
inputs, such as action classes or textual descriptors. Since human motions are
highly diverse and have a property of quite different distribution from
conditional modalities, such as textual descriptors in natural languages, it is
hard to learn a probabilistic mapping from the desired conditional modality to
the human motion sequences. Besides, the raw motion data from the motion
capture system might be redundant in sequences and contain noises; directly
modeling the joint distribution over the raw motion sequences and conditional
modalities would need a heavy computational overhead and might result in
artifacts introduced by the captured noises. To learn a better representation
of the various human motion sequences, we first design a powerful Variational
AutoEncoder (VAE) and arrive at a representative and low-dimensional latent
code for a human motion sequence. Then, instead of using a diffusion model to
establish the connections between the raw motion sequences and the conditional
inputs, we perform a diffusion process on the motion latent space. Our proposed
Motion Latent-based Diffusion model (MLD) could produce vivid motion sequences
conforming to the given conditional inputs and substantially reduce the
computational overhead in both the training and inference stages. Extensive
experiments on various human motion generation tasks demonstrate that our MLD
achieves significant improvements over the state-of-the-art methods among
extensive human motion generation tasks, with two orders of magnitude faster
than previous diffusion models on raw motion sequences.
- Abstract(参考訳): 本稿では,アクションクラスやテキスト記述子など,様々な条件入力に応じて人間の動作シーケンスを生成する課題である条件付きヒューマンモーション生成について検討する。
人間の動きは多様であり、自然言語におけるテキスト記述子のような条件付きモダリティとは全く異なる性質を持つため、所望の条件付きモダリティから人間の動き列への確率的マッピングを学ぶことは困難である。
さらに、モーションキャプチャシステムからの生のモーションデータはシーケンスが冗長でノイズも含んでいる可能性があり、生のモーションシーケンスと条件付きモダリティのジョイント分布を直接モデル化するには、重い計算オーバーヘッドが必要となり、キャプチャされたノイズによって引き起こされるアーティファクトを発生させる可能性がある。
人間の動作シーケンスをよりよく表現するために、我々はまず強力な変分オートエンコーダ(VAE)を設計し、人間の動作シーケンスを代表的で低次元の遅延コードに到達する。
次に, 動き列と条件入力との接続を確立するために拡散モデルを用いる代わりに, 動き潜在空間上で拡散過程を行う。
提案した動作遅延に基づく拡散モデル(MLD)は、与えられた条件入力に対応する鮮明な動き列を生成し、トレーニングおよび推論段階の計算オーバーヘッドを大幅に低減する。
様々な人体運動生成タスクに対する広範囲な実験により、我々のMLDは、広範囲な人体運動生成タスクにおける最先端の手法よりも大幅に改善され、原動列上の従来の拡散モデルよりも2桁高速であることが示された。
関連論文リスト
- Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Human Motion Synthesis_ A Diffusion Approach for Motion Stitching and In-Betweening [2.5165775267615205]
本研究では,現実的な人間の動きを生成するための変圧器を用いた拡散モデルを提案する。
提案手法は, 中間配列の生成において高い性能を示した。
本稿では,Frechet Inception Distance(FID),Diversity,Multimodalityなどの定量的指標を用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-09-10T18:02:32Z) - M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。