論文の概要: MotionPCM: Real-Time Motion Synthesis with Phased Consistency Model
- arxiv url: http://arxiv.org/abs/2501.19083v2
- Date: Sat, 08 Mar 2025 15:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:29.543467
- Title: MotionPCM: Real-Time Motion Synthesis with Phased Consistency Model
- Title(参考訳): MotionPCM: 位相整合モデルを用いたリアルタイム動作合成
- Authors: Lei Jiang, Ye Wei, Hao Ni,
- Abstract要約: 拡散モデルは、その強力な生成能力のためにヒトの運動合成において一般的な選択肢となっている。
それらの高い計算複雑性と大規模なサンプリングステップは、リアルタイムアプリケーションに課題をもたらす。
遅延空間におけるリアルタイム合成動作の品質と効率を向上させるために, 位相整合モデルに基づくアプローチである textbfMotionPCM を導入する。
- 参考スコア(独自算出の注目度): 7.920981293972071
- License:
- Abstract: Diffusion models have become a popular choice for human motion synthesis due to their powerful generative capabilities. However, their high computational complexity and large sampling steps pose challenges for real-time applications. Fortunately, the Consistency Model (CM) provides a solution to greatly reduce the number of sampling steps from hundreds to a few, typically fewer than four, significantly accelerating the synthesis of diffusion models. However, applying CM to text-conditioned human motion synthesis in latent space yields unsatisfactory generation results. In this paper, we introduce \textbf{MotionPCM}, a phased consistency model-based approach designed to improve the quality and efficiency for real-time motion synthesis in latent space. Experimental results on the HumanML3D dataset show that our model achieves real-time inference at over 30 frames per second in a single sampling step while outperforming the previous state-of-the-art with a 38.9\% improvement in FID. The code will be available for reproduction.
- Abstract(参考訳): 拡散モデルは、その強力な生成能力のためにヒトの運動合成において一般的な選択肢となっている。
しかし、その高い計算複雑性と大規模なサンプリングステップは、リアルタイムアプリケーションに課題をもたらす。
幸いなことに、CM(Consistency Model)は、サンプリングステップの数を数百から4つ未満に減らし、拡散モデルの合成を著しく加速するソリューションを提供する。
しかし,テキスト条件付き人間の動作合成にCMを適用すると,不満足な生成結果が得られる。
本稿では,遅延空間におけるリアルタイムな動き合成の品質と効率を向上させるために,位相整合モデルに基づくアプローチである \textbf{MotionPCM} を紹介する。
また,HumanML3Dデータセットを用いた実験結果から,1回のサンプリングで毎秒30フレーム以上のリアルタイム推論を実現し,FIDの38.9倍の精度で先行技術を上回る結果を得た。
コードは再生可能になります。
関連論文リスト
- Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models [57.45019514036948]
MRMP拡散(SMD)は、制約付き最適化を拡散サンプリングプロセスに統合し、運動学的に実現可能な軌道を生成する新しい手法である。
本稿では, ロボット密度, 障害物の複雑度, 動作制約の異なるシナリオ間の軌道計画アルゴリズムを評価するための総合的MRMPベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:51:28Z) - Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling [10.914612535745789]
本稿では,MoCo-NeRF(MoCo-NeRF)について述べる。
MoCo-NeRFはモノクロビデオのフリービューポイントレンダリングを実現するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-07-16T17:59:01Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models [22.044020889631188]
マルチモーダル統合によるジェスチャーの多様性とリズムを向上させるMambaTalkを紹介する。
我々の手法は最先端のモデルの性能と一致するか超えている。
論文 参考訳(メタデータ) (2024-03-14T15:10:54Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - AAMDM: Accelerated Auto-regressive Motion Diffusion Model [10.94879097495769]
本稿では,AAMDM(Accelerated Auto-Regressive Motion Diffusion Model)を紹介する。
AAMDMは、品質、多様性、効率性を同時に達成するために設計された、新しいモーション合成フレームワークである。
AAMDMは動作品質,多様性,実行効率において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-02T23:52:21Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。