論文の概要: ControlMM: Controllable Masked Motion Generation
- arxiv url: http://arxiv.org/abs/2410.10780v1
- Date: Mon, 14 Oct 2024 17:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:34:54.176717
- Title: ControlMM: Controllable Masked Motion Generation
- Title(参考訳): 制御MM:制御可能なマスク運動生成
- Authors: Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Korrawe Karunratanakul, Pu Wang, Hongfei Xue, Chen Chen, Chuan Guo, Junli Cao, Jian Ren, Sergey Tulyakov,
- Abstract要約: 生成マスク運動モデルに空間制御信号を組み込む新しい手法である制御MMを提案する。
ControlMMは、リアルタイム、高忠実、高精度な制御可能なモーション生成を同時に達成する。
ControlMMは拡散法よりも20倍速く動きを生成する。
- 参考スコア(独自算出の注目度): 38.16884934336603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in motion diffusion models have enabled spatially controllable text-to-motion generation. However, despite achieving acceptable control precision, these models suffer from generation speed and fidelity limitations. To address these challenges, we propose ControlMM, a novel approach incorporating spatial control signals into the generative masked motion model. ControlMM achieves real-time, high-fidelity, and high-precision controllable motion generation simultaneously. Our approach introduces two key innovations. First, we propose masked consistency modeling, which ensures high-fidelity motion generation via random masking and reconstruction, while minimizing the inconsistency between the input control signals and the extracted control signals from the generated motion. To further enhance control precision, we introduce inference-time logit editing, which manipulates the predicted conditional motion distribution so that the generated motion, sampled from the adjusted distribution, closely adheres to the input control signals. During inference, ControlMM enables parallel and iterative decoding of multiple motion tokens, allowing for high-speed motion generation. Extensive experiments show that, compared to the state of the art, ControlMM delivers superior results in motion quality, with better FID scores (0.061 vs 0.271), and higher control precision (average error 0.0091 vs 0.0108). ControlMM generates motions 20 times faster than diffusion-based methods. Additionally, ControlMM unlocks diverse applications such as any joint any frame control, body part timeline control, and obstacle avoidance. Video visualization can be found at https://exitudio.github.io/ControlMM-page
- Abstract(参考訳): 近年の移動拡散モデルにより、空間的に制御可能なテキスト・ツー・モーション生成が可能になった。
しかし、制御精度が許容できるにもかかわらず、これらのモデルは生成速度と忠実度制限に悩まされる。
これらの課題に対処するために,空間制御信号を生成マスク運動モデルに組み込む新しい手法であるControlMMを提案する。
ControlMMは、リアルタイム、高忠実、高精度な制御可能なモーション生成を同時に達成する。
このアプローチには2つの重要なイノベーションがあります。
まず,入力制御信号と抽出制御信号との整合性を最小化しつつ,ランダムマスキングと再構成による高忠実な動作生成を実現するマスク整合性モデリングを提案する。
制御精度をさらに高めるために、予測された条件運動分布を操作する推論時ロジット編集を導入し、調整された分布からサンプリングされた生成された動きが入力制御信号に密着するようにした。
推論中、ControlMMは複数のモーショントークンの並列かつ反復的な復号化を可能にし、高速なモーション生成を可能にする。
広汎な実験により、制御MMは最先端技術と比較して、より優れたFIDスコア(0.061 vs 0.271)と高い制御精度(平均誤差0.0091 vs 0.0108)で、運動品質の優れた結果をもたらすことが示された。
ControlMMは拡散法よりも20倍速く動きを生成する。
さらに、ControlMMは、どんな関節でもフレームコントロール、ボディ部分のタイムライン制御、障害物回避などの多様なアプリケーションをアンロックする。
ビデオの可視化はhttps://exitudio.github.io/ControlMM-pageで見ることができる。
関連論文リスト
- Mojito: Motion Trajectory and Intensity Control for Video Generation [79.85687620761186]
本稿では,テキスト・ビデオ生成のための運動軌跡と強度制御の両方を組み込んだ拡散モデルであるMojitoを紹介する。
実験は, 高精度な軌道制御と強度制御を高い計算効率で実現する上で, モジトの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-12T05:26:43Z) - Uniformly Accelerated Motion Model for Inter Prediction [38.34487653360328]
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文 参考訳(メタデータ) (2024-07-16T09:46:29Z) - MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model [29.93359157128045]
この研究は、制御可能なモーション生成をリアルタイムレベルに拡張するMotionLCMを導入している。
まず,動き潜時拡散モデルに基づいて,動き生成のための動き潜時一貫性モデル(MotionLCM)を提案する。
一段階(もしくは数段階)の推論を採用することにより、動作生成のための動き潜伏拡散モデルの実行効率をさらに向上する。
論文 参考訳(メタデータ) (2024-04-30T17:59:47Z) - MMM: Generative Masked Motion Model [10.215003912084944]
MMM は Masked Motion Model に基づく,比較的単純なモーション生成パラダイムである。
あらゆる方向に動きやテキストトークンに参加することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係をキャプチャする。
MMMは、編集可能なモーション拡散モデルよりも1つの中距離GPUで2桁高速である。
論文 参考訳(メタデータ) (2023-12-06T16:35:59Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - OmniControl: Control Any Joint at Any Time for Human Motion Generation [46.293854851116215]
テキスト条件付き人体動作生成モデルにフレキシブルな空間制御信号を統合するために,OmniControlという新しい手法を提案する。
本稿では,入力制御信号に厳密に適合した動作を実現するための解析的空間ガイダンスを提案する。
同時に、全ての関節を洗練してよりコヒーレントな動きを生み出すためにリアリズムガイダンスが導入された。
論文 参考訳(メタデータ) (2023-10-12T17:59:38Z) - MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators [108.67006263044772]
本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。
まず,マルチモーダル制御信号を離散符号に量子化し,それらを統一的なプロンプト命令で定式化する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
論文 参考訳(メタデータ) (2023-06-19T12:58:17Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。