論文の概要: MotionPCM: Real-Time Motion Synthesis with Phased Consistency Model
- arxiv url: http://arxiv.org/abs/2501.19083v2
- Date: Sat, 08 Mar 2025 15:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:06.094623
- Title: MotionPCM: Real-Time Motion Synthesis with Phased Consistency Model
- Title(参考訳): MotionPCM: 位相整合モデルを用いたリアルタイム動作合成
- Authors: Lei Jiang, Ye Wei, Hao Ni,
- Abstract要約: 拡散モデルは、その強力な生成能力のためにヒトの運動合成において一般的な選択肢となっている。
それらの高い計算複雑性と大規模なサンプリングステップは、リアルタイムアプリケーションに課題をもたらす。
遅延空間におけるリアルタイム合成動作の品質と効率を向上させるために, 位相整合モデルに基づくアプローチである textbfMotionPCM を導入する。
- 参考スコア(独自算出の注目度): 7.920981293972071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have become a popular choice for human motion synthesis due to their powerful generative capabilities. However, their high computational complexity and large sampling steps pose challenges for real-time applications. Fortunately, the Consistency Model (CM) provides a solution to greatly reduce the number of sampling steps from hundreds to a few, typically fewer than four, significantly accelerating the synthesis of diffusion models. However, applying CM to text-conditioned human motion synthesis in latent space yields unsatisfactory generation results. In this paper, we introduce \textbf{MotionPCM}, a phased consistency model-based approach designed to improve the quality and efficiency for real-time motion synthesis in latent space. Experimental results on the HumanML3D dataset show that our model achieves real-time inference at over 30 frames per second in a single sampling step while outperforming the previous state-of-the-art with a 38.9\% improvement in FID. The code will be available for reproduction.
- Abstract(参考訳): 拡散モデルは、その強力な生成能力のためにヒトの運動合成において一般的な選択肢となっている。
しかし、その高い計算複雑性と大規模なサンプリングステップは、リアルタイムアプリケーションに課題をもたらす。
幸いなことに、CM(Consistency Model)は、サンプリングステップの数を数百から4つ未満に減らし、拡散モデルの合成を著しく加速するソリューションを提供する。
しかし,テキスト条件付き人間の動作合成にCMを適用すると,不満足な生成結果が得られる。
本稿では,遅延空間におけるリアルタイムな動き合成の品質と効率を向上させるために,位相整合モデルに基づくアプローチである \textbf{MotionPCM} を紹介する。
また,HumanML3Dデータセットを用いた実験結果から,1回のサンプリングで毎秒30フレーム以上のリアルタイム推論を実現し,FIDの38.9倍の精度で先行技術を上回る結果を得た。
コードは再生可能になります。
関連論文リスト
- LS-GAN: Human Motion Synthesis with Latent-space GANs [0.0]
条件付きモーション合成はテキストを入力し、テキストに対応する3Dモーションを出力する。
本稿では,GAN(Generative Adversarial Networks)を潜在空間で活用して,より高速なトレーニングと推論を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T05:44:38Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models [22.044020889631188]
マルチモーダル統合によるジェスチャーの多様性とリズムを向上させるMambaTalkを紹介する。
我々の手法は最先端のモデルの性能と一致するか超えている。
論文 参考訳(メタデータ) (2024-03-14T15:10:54Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - VideoLCM: Video Latent Consistency Model [52.3311704118393]
VideoLCMは、既存の遅延ビデオ拡散モデルの上に構築され、遅延一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれている。
ビデオLCMは4ステップのみのサンプリングで高忠実でスムーズなビデオ合成を実現し,リアルタイム合成の可能性を示す。
論文 参考訳(メタデータ) (2023-12-14T16:45:36Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。