論文の概要: MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls
- arxiv url: http://arxiv.org/abs/2407.21136v3
- Date: Sun, 25 Aug 2024 07:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 20:50:26.519350
- Title: MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls
- Title(参考訳): MotionCraft: プラグイン・アンド・プレイのマルチモーダル制御による全身動作の製作
- Authors: Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu,
- Abstract要約: プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
- 参考スコア(独自算出の注目度): 30.487510829107908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body multimodal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to achieve various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different tasks (e.g., co-speech gestures and text-driven daily actions) and the complex optimization of mixed conditions with varying granularities (e.g., text and audio). Additionally, inconsistent motion formats across different tasks and datasets hinder effective training toward multimodal motion generation. In this paper, we propose MotionCraft, a unified diffusion transformer that crafts whole-body motion with plug-and-play multimodal control. Our framework employs a coarse-to-fine training strategy, starting with the first stage of text-to-motion semantic pre-training, followed by the second stage of multimodal low-level control adaptation to handle conditions of varying granularities. To effectively learn and transfer motion knowledge across different distributions, we design MC-Attn for parallel modeling of static and dynamic human topology graphs. To overcome the motion format inconsistency of existing benchmarks, we introduce MC-Bench, the first available multimodal whole-body motion generation benchmark based on the unified SMPL-X format. Extensive experiments show that MotionCraft achieves state-of-the-art performance on various standard motion generation tasks.
- Abstract(参考訳): テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。
しかし、異なる条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なるタスク(例えば、共同音声ジェスチャーやテキスト駆動の日々の行動)にわたる動き分布のドリフトと、様々な粒度の混合条件(例えば、テキストや音声)の複雑な最適化の2つの主な課題が提示される。
さらに、異なるタスクやデータセットにわたる一貫性のないモーションフォーマットは、マルチモーダルモーション生成に対する効果的なトレーニングを妨げる。
本稿では,プラグイン・アンド・プレイマルチモーダル制御による全身動作を実現する統合拡散トランスフォーマであるMotionCraftを提案する。
本フレームワークでは,テキスト・ツー・モーション・セマンティック・プレトレーニングの第1段階から始まり,さまざまな粒度の条件に対処するマルチモーダル・ローレベル・コントロール・アダプティブの第2段階まで,粗大な訓練戦略を採用している。
そこで我々は,静的および動的トポロジーグラフの並列モデリングのためのMC-Attnを設計した。
既存のベンチマークの動作フォーマットの不整合を克服するため,SMPL-Xフォーマットを統一したマルチモーダル全体の動作生成ベンチマークであるMC-Benchを導入する。
大規模な実験により、MotionCraftは様々な標準モーション生成タスクで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Example-based Motion Synthesis via Generative Motion Matching [44.20519633463265]
我々は、単一または少数のサンプルシーケンスから可能な限り多くの多様な動きを「マイニング」する生成モデルGenMMを提案する。
GenMMは、トレーニングのない性質と、よく知られたMotion Matching法の優れた品質を継承する。
論文 参考訳(メタデータ) (2023-06-01T06:19:33Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。