論文の概要: EMDM: Efficient Motion Diffusion Model for Fast, High-Quality Motion
Generation
- arxiv url: http://arxiv.org/abs/2312.02256v1
- Date: Mon, 4 Dec 2023 18:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:47:25.904847
- Title: EMDM: Efficient Motion Diffusion Model for Fast, High-Quality Motion
Generation
- Title(参考訳): emdm:高速かつ高品質な動き生成のための効率的な動き拡散モデル
- Authors: Wenyang Zhou, Zhiyang Dou, Zeyu Cao, Zhouyingcheng Liao, Jingbo Wang,
Wenjia Wang, Yuan Liu, Taku Komura, Wenping Wang, Lingjie Liu
- Abstract要約: 高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
複雑なデータ分布をモデル化することにより、より大きなサンプリングステップサイズと少ないステップが、モーション合成中に達成される。
- 参考スコア(独自算出の注目度): 59.454161186907875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Efficient Motion Diffusion Model (EMDM) for fast and
high-quality human motion generation. Although previous motion diffusion models
have shown impressive results, they struggle to achieve fast generation while
maintaining high-quality human motions. Motion latent diffusion has been
proposed for efficient motion generation. However, effectively learning a
latent space can be non-trivial in such a two-stage manner. Meanwhile,
accelerating motion sampling by increasing the step size, e.g., DDIM, typically
leads to a decline in motion quality due to the inapproximation of complex data
distributions when naively increasing the step size. In this paper, we propose
EMDM that allows for much fewer sample steps for fast motion generation by
modeling the complex denoising distribution during multiple sampling steps.
Specifically, we develop a Conditional Denoising Diffusion GAN to capture
multimodal data distributions conditioned on both control signals, i.e.,
textual description and denoising time step. By modeling the complex data
distribution, a larger sampling step size and fewer steps are achieved during
motion synthesis, significantly accelerating the generation process. To
effectively capture the human dynamics and reduce undesired artifacts, we
employ motion geometric loss during network training, which improves the motion
quality and training efficiency. As a result, EMDM achieves a remarkable
speed-up at the generation stage while maintaining high-quality motion
generation in terms of fidelity and diversity.
- Abstract(参考訳): 高速かつ高品質な動き生成のための効率的な運動拡散モデル(emdm)を提案する。
従来の運動拡散モデルでは印象的な結果が得られたが、高品質な人間の動きを維持しながら高速な生成に苦慮している。
効率的な動き生成のための潜伏拡散法が提案されている。
しかし、潜在空間を効果的に学習することは、そのような2段階的な方法では非自明である。
一方、ステップサイズを増加させることによるモーションサンプリングの高速化、例えばddimは、ステップサイズをナイーブに増加させた場合、複雑なデータ分布の近似による動作品質の低下につながる。
本稿では,複数のサンプリングステップにおける複雑な雑音分布をモデル化することにより,高速動作生成のためのサンプルステップをはるかに少なくできるemdmを提案する。
具体的には,両制御信号,すなわちテキスト記述と復調時間ステップで条件付けられたマルチモーダルデータ分布をキャプチャする条件記述拡散GANを開発する。
複雑なデータ分布をモデル化することにより、より大きなサンプリングステップサイズと少ないステップがモーション合成中に達成され、生成プロセスが大幅に加速される。
人間のダイナミクスを効果的に捉え、望ましくないアーティファクトを減らすために、ネットワークトレーニング中に運動幾何学的損失を採用し、動作品質とトレーニング効率を向上させる。
その結果、EMDMは、忠実度と多様性の点で高品質なモーション生成を維持しつつ、生成段階で顕著なスピードアップを達成する。
関連論文リスト
- MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - AAMDM: Accelerated Auto-regressive Motion Diffusion Model [10.94879097495769]
本稿では,AAMDM(Accelerated Auto-Regressive Motion Diffusion Model)を紹介する。
AAMDMは、品質、多様性、効率性を同時に達成するために設計された、新しいモーション合成フレームワークである。
AAMDMは動作品質,多様性,実行効率において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-02T23:52:21Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Decoupled Diffusion Models: Image to Zero and Zero to Noise [57.9447970931649]
本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する。
拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。
また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。