論文の概要: Adding Multi-modal Controls to Whole-body Human Motion Generation
- arxiv url: http://arxiv.org/abs/2407.21136v1
- Date: Tue, 30 Jul 2024 18:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:24:51.240246
- Title: Adding Multi-modal Controls to Whole-body Human Motion Generation
- Title(参考訳): 全身運動生成にマルチモーダル制御を加える
- Authors: Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu,
- Abstract要約: テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。
プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。
SMPL-Xフォーマットを統一したマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを紹介する。
- 参考スコア(独自算出の注目度): 30.487510829107908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body multi-modal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to accomplish various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different generation scenarios and the complex optimization of mixed conditions with varying granularity. Furthermore, inconsistent motion formats in existing datasets further hinder effective multi-modal motion generation. In this paper, we propose ControlMM, a unified framework to Control whole-body Multi-modal Motion generation in a plug-and-play manner. To effectively learn and transfer motion knowledge across different motion distributions, we propose ControlMM-Attn, for parallel modeling of static and dynamic human topology graphs. To handle conditions with varying granularity, ControlMM employs a coarse-to-fine training strategy, including stage-1 text-to-motion pre-training for semantic generation and stage-2 multi-modal control adaptation for conditions of varying low-level granularity. To address existing benchmarks' varying motion format limitations, we introduce ControlMM-Bench, the first publicly available multi-modal whole-body human motion generation benchmark based on the unified whole-body SMPL-X format. Extensive experiments show that ControlMM achieves state-of-the-art performance across various standard motion generation tasks. Our website is at https://yxbian23.github.io/ControlMM.
- Abstract(参考訳): テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。
しかし、異なる条件条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なる生成シナリオ間での運動分布のドリフトと、異なる粒度を持つ混合条件の複雑な最適化の2つの主な課題が提示される。
さらに、既存のデータセットにおける一貫性のないモーションフォーマットは、より効果的なマルチモーダルモーション生成を妨げる。
本稿では,プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。
そこで我々は,静的・動的トポロジーグラフの並列モデリングのための制御MM-Attnを提案する。
粒度の異なる条件に対処するため、ControlMMでは、セマンティック生成のためのステージ1テキスト・ツー・モーション事前学習や、低レベル粒度の条件に対するステージ2マルチモーダル制御適応など、粗い訓練戦略を採用している。
既存のベンチマークの様々な動作フォーマット制限に対処するために,統一された全体SMPL-Xフォーマットに基づく,初めて公開されたマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを導入する。
広汎な実験により、制御MMは様々な標準動作生成タスクにおいて最先端の性能を達成することが示された。
私たちのウェブサイトはhttps://yxbian23.github.io/ControlMMにあります。
関連論文リスト
- M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Example-based Motion Synthesis via Generative Motion Matching [44.20519633463265]
我々は、単一または少数のサンプルシーケンスから可能な限り多くの多様な動きを「マイニング」する生成モデルGenMMを提案する。
GenMMは、トレーニングのない性質と、よく知られたMotion Matching法の優れた品質を継承する。
論文 参考訳(メタデータ) (2023-06-01T06:19:33Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。