Fugu-MT 論文翻訳(概要): Adding Multi-modal Controls to Whole-body Human Motion Generation

論文の概要: Adding Multi-modal Controls to Whole-body Human Motion Generation

arxiv url: http://arxiv.org/abs/2407.21136v1
Date: Tue, 30 Jul 2024 18:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 19:24:51.240246
Title: Adding Multi-modal Controls to Whole-body Human Motion Generation
Title（参考訳）: 全身運動生成にマルチモーダル制御を加える
Authors: Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu,
Abstract要約: テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。 SMPL-Xフォーマットを統一したマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを紹介する。
参考スコア（独自算出の注目度）: 30.487510829107908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Whole-body multi-modal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to accomplish various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different generation scenarios and the complex optimization of mixed conditions with varying granularity. Furthermore, inconsistent motion formats in existing datasets further hinder effective multi-modal motion generation. In this paper, we propose ControlMM, a unified framework to Control whole-body Multi-modal Motion generation in a plug-and-play manner. To effectively learn and transfer motion knowledge across different motion distributions, we propose ControlMM-Attn, for parallel modeling of static and dynamic human topology graphs. To handle conditions with varying granularity, ControlMM employs a coarse-to-fine training strategy, including stage-1 text-to-motion pre-training for semantic generation and stage-2 multi-modal control adaptation for conditions of varying low-level granularity. To address existing benchmarks' varying motion format limitations, we introduce ControlMM-Bench, the first publicly available multi-modal whole-body human motion generation benchmark based on the unified whole-body SMPL-X format. Extensive experiments show that ControlMM achieves state-of-the-art performance across various standard motion generation tasks. Our website is at https://yxbian23.github.io/ControlMM.
Abstract（参考訳）: テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。しかし、異なる条件条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なる生成シナリオ間での運動分布のドリフトと、異なる粒度を持つ混合条件の複雑な最適化の2つの主な課題が提示される。さらに、既存のデータセットにおける一貫性のないモーションフォーマットは、より効果的なマルチモーダルモーション生成を妨げる。本稿では,プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。そこで我々は,静的・動的トポロジーグラフの並列モデリングのための制御MM-Attnを提案する。粒度の異なる条件に対処するため、ControlMMでは、セマンティック生成のためのステージ1テキスト・ツー・モーション事前学習や、低レベル粒度の条件に対するステージ2マルチモーダル制御適応など、粗い訓練戦略を採用している。既存のベンチマークの様々な動作フォーマット制限に対処するために,統一された全体SMPL-Xフォーマットに基づく,初めて公開されたマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを導入する。広汎な実験により、制御MMは様々な標準動作生成タスクにおいて最先端の性能を達成することが示された。私たちのウェブサイトはhttps://yxbian23.github.io/ControlMMにあります。

関連論文リスト

SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。 GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-03-19T05:56:52Z)
PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文参考訳（メタデータ） (2025-01-27T22:51:45Z)
VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。 VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-26T11:28:01Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。 M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文参考訳（メタデータ） (2024-05-25T15:21:59Z)
Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。 LMMは3つの原則的な側面からこれらの課題に取り組む。
論文参考訳（メタデータ） (2024-04-01T17:55:11Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文参考訳（メタデータ） (2023-10-16T09:09:02Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。