論文の概要: Spatio-Temporal Control for Masked Motion Synthesis
- arxiv url: http://arxiv.org/abs/2410.10780v2
- Date: Sat, 05 Jul 2025 19:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.122257
- Title: Spatio-Temporal Control for Masked Motion Synthesis
- Title(参考訳): マスク運動合成のための時空間時空間制御
- Authors: Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Korrawe Karunratanakul, Pu Wang, Hongfei Xue, Chen Chen, Chuan Guo, Junli Cao, Jian Ren, Sergey Tulyakov,
- Abstract要約: 生成マスク運動モデルに制御性を導入するための最初のアプローチであるMaskControlを提案する。
まず、textitLogits Regularizerは、トレーニング時に暗黙的にロジットを摂り、モーショントークンの分布を制御された関節位置と整列させる。
第2に、textitLogit最適化は、生成した動きを制御された関節位置と正確に一致させるトークン分布を明示的に再設定する。
- 参考スコア(独自算出の注目度): 38.16884934336603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in motion diffusion models have enabled spatially controllable text-to-motion generation. However, these models struggle to achieve high-precision control while maintaining high-quality motion generation. To address these challenges, we propose MaskControl, the first approach to introduce controllability to the generative masked motion model. Our approach introduces two key innovations. First, \textit{Logits Regularizer} implicitly perturbs logits at training time to align the distribution of motion tokens with the controlled joint positions, while regularizing the categorical token prediction to ensure high-fidelity generation. Second, \textit{Logit Optimization} explicitly optimizes the predicted logits during inference time, directly reshaping the token distribution that forces the generated motion to accurately align with the controlled joint positions. Moreover, we introduce \textit{Differentiable Expectation Sampling (DES)} to combat the non-differential distribution sampling process encountered by logits regularizer and optimization. Extensive experiments demonstrate that MaskControl outperforms state-of-the-art methods, achieving superior motion quality (FID decreases by ~77\%) and higher control precision (average error 0.91 vs. 1.08). Additionally, MaskControl enables diverse applications, including any-joint-any-frame control, body-part timeline control, and zero-shot objective control. Video visualization can be found at https://www.ekkasit.com/ControlMM-page/
- Abstract(参考訳): 近年の移動拡散モデルにより、空間的に制御可能なテキスト・ツー・モーション生成が可能になった。
しかし、これらのモデルは高品質なモーション生成を維持しながら高精度な制御を実現するのに苦労する。
これらの課題に対処するために、生成マスク運動モデルに制御性を導入する最初のアプローチであるMaskControlを提案する。
このアプローチには2つの重要なイノベーションがあります。
まず,動作トークンの分布を制御された関節位置と整合させるため,学習時に暗黙的にロジットを摂動し,カテゴリー的トークン予測を規則化し,高忠実度生成を保証する。
次に、 \textit{Logit Optimization} は推論時間中に予測されたロジットを明示的に最適化し、生成した動きを制御された関節位置と正確に整合させるトークン分布を直接再構成する。
さらに、ロジット正規化と最適化によって発生する非微分分布サンプリングプロセスに対処するために、textit{Differentiable expectation Smpling (DES)を導入する。
大規模な実験により、MaskControlは最先端の手法より優れ、より優れた動作品質(FIDが約77\%減少)とより高い制御精度(平均誤差0.91 vs. 1.08)を達成することが示されている。
さらに、MaskControlは、任意の随伴フレーム制御、ボディ部分のタイムライン制御、ゼロショットの客観的制御など、多様なアプリケーションを可能にする。
ビデオの視覚化はhttps://www.ekkasit.com/ControlMM-page/で見ることができる。
関連論文リスト
- Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。
総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文 参考訳(メタデータ) (2025-03-21T09:48:00Z) - Mojito: Motion Trajectory and Intensity Control for Video Generation [79.85687620761186]
本稿では,テキスト・ビデオ生成のための運動軌跡と強度制御の両方を組み込んだ拡散モデルであるMojitoを紹介する。
実験は, 高精度な軌道制御と強度制御を高い計算効率で実現する上で, モジトの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-12T05:26:43Z) - Uniformly Accelerated Motion Model for Inter Prediction [38.34487653360328]
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文 参考訳(メタデータ) (2024-07-16T09:46:29Z) - MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model [29.93359157128045]
この研究は、制御可能なモーション生成をリアルタイムレベルに拡張するMotionLCMを導入している。
まず, 遅延拡散モデルに基づく動き生成のための動き潜時一貫性モデル (MotionLCM) を提案する。
一段階(もしくは数段階)の推論を採用することにより、動作生成のための動き潜伏拡散モデルの実行効率をさらに向上する。
論文 参考訳(メタデータ) (2024-04-30T17:59:47Z) - MMM: Generative Masked Motion Model [10.215003912084944]
MMM は Masked Motion Model に基づく,比較的単純なモーション生成パラダイムである。
あらゆる方向に動きやテキストトークンに参加することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係をキャプチャする。
MMMは、編集可能なモーション拡散モデルよりも1つの中距離GPUで2桁高速である。
論文 参考訳(メタデータ) (2023-12-06T16:35:59Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - OmniControl: Control Any Joint at Any Time for Human Motion Generation [46.293854851116215]
テキスト条件付き人体動作生成モデルにフレキシブルな空間制御信号を統合するために,OmniControlという新しい手法を提案する。
本稿では,入力制御信号に厳密に適合した動作を実現するための解析的空間ガイダンスを提案する。
同時に、全ての関節を洗練してよりコヒーレントな動きを生み出すためにリアリズムガイダンスが導入された。
論文 参考訳(メタデータ) (2023-10-12T17:59:38Z) - MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators [108.67006263044772]
本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。
まず,マルチモーダル制御信号を離散符号に量子化し,それらを統一的なプロンプト命令で定式化する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
論文 参考訳(メタデータ) (2023-06-19T12:58:17Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。