論文の概要: Adding Multimodal Controls to Whole-body Human Motion Generation
- arxiv url: http://arxiv.org/abs/2407.21136v2
- Date: Sun, 4 Aug 2024 03:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:59:40.911626
- Title: Adding Multimodal Controls to Whole-body Human Motion Generation
- Title(参考訳): 全身運動生成にマルチモーダル制御を加える
- Authors: Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu,
- Abstract要約: テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成には、多くの応用がある。
プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。
SMPL-Xフォーマットを統一したマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを紹介する。
- 参考スコア(独自算出の注目度): 30.487510829107908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body multimodal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to accomplish various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different generation scenarios and the complex optimization of mixed conditions with varying granularity. Furthermore, inconsistent motion formats in existing datasets further hinder effective multimodal motion generation. In this paper, we propose ControlMM, a unified framework to Control whole-body Multimodal Motion generation in a plug-and-play manner. To effectively learn and transfer motion knowledge across different motion distributions, we propose ControlMM-Attn, for parallel modeling of static and dynamic human topology graphs. To handle conditions with varying granularity, ControlMM employs a coarse-to-fine training strategy, including stage-1 text-to-motion pre-training for semantic generation and stage-2 multimodal control adaptation for conditions of varying low-level granularity. To address existing benchmarks' varying motion format limitations, we introduce ControlMM-Bench, the first publicly available multimodal whole-body human motion generation benchmark based on the unified whole-body SMPL-X format. Extensive experiments show that ControlMM achieves state-of-the-art performance across various standard motion generation tasks. Our website is at https://yxbian23.github.io/ControlMM.
- Abstract(参考訳): テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。
しかし、異なる条件条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なる生成シナリオ間での運動分布のドリフトと、異なる粒度を持つ混合条件の複雑な最適化の2つの主な課題が提示される。
さらに、既存のデータセットにおける一貫性のないモーションフォーマットは、より効果的なマルチモーダルモーション生成を妨げる。
本稿では,プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。
そこで我々は,静的・動的トポロジーグラフの並列モデリングのための制御MM-Attnを提案する。
粒度の異なる条件に対処するため、ControlMMでは、セマンティック生成のためのステージ1テキスト・ツー・モーション事前学習や、低レベル粒度の条件に対するステージ2マルチモーダル制御適応など、粗い訓練戦略を採用している。
既存のベンチマークのさまざまな動作フォーマット制限に対処するために,統一された全体SMPL-Xフォーマットに基づく,初めて公開されたマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを導入する。
広汎な実験により、制御MMは様々な標準動作生成タスクにおいて最先端の性能を達成することが示された。
私たちのウェブサイトはhttps://yxbian23.github.io/ControlMMにあります。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。
M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文 参考訳(メタデータ) (2024-05-25T15:21:59Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。