論文の概要: MMM: Generative Masked Motion Model
- arxiv url: http://arxiv.org/abs/2312.03596v1
- Date: Wed, 6 Dec 2023 16:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:25:04.316264
- Title: MMM: Generative Masked Motion Model
- Title(参考訳): MMM:生成的マスク運動モデル
- Authors: Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen
- Abstract要約: MMM は Masked Motion Model に基づく,比較的単純なモーション生成パラダイムである。
あらゆる方向に動きやテキストトークンに参加することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係をキャプチャする。
MMMは、編集可能なモーション拡散モデルよりも1つの中距離GPUで2桁高速である。
- 参考スコア(独自算出の注目度): 11.159157933075253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-motion generation using diffusion and
autoregressive models have shown promising results. However, these models often
suffer from a trade-off between real-time performance, high fidelity, and
motion editability. To address this gap, we introduce MMM, a novel yet simple
motion generation paradigm based on Masked Motion Model. MMM consists of two
key components: (1) a motion tokenizer that transforms 3D human motion into a
sequence of discrete tokens in latent space, and (2) a conditional masked
motion transformer that learns to predict randomly masked motion tokens,
conditioned on the pre-computed text tokens. By attending to motion and text
tokens in all directions, MMM explicitly captures inherent dependency among
motion tokens and semantic mapping between motion and text tokens. During
inference, this allows parallel and iterative decoding of multiple motion
tokens that are highly consistent with fine-grained text descriptions,
therefore simultaneously achieving high-fidelity and high-speed motion
generation. In addition, MMM has innate motion editability. By simply placing
mask tokens in the place that needs editing, MMM automatically fills the gaps
while guaranteeing smooth transitions between editing and non-editing parts.
Extensive experiments on the HumanML3D and KIT-ML datasets demonstrate that MMM
surpasses current leading methods in generating high-quality motion (evidenced
by superior FID scores of 0.08 and 0.429), while offering advanced editing
features such as body-part modification, motion in-betweening, and the
synthesis of long motion sequences. In addition, MMM is two orders of magnitude
faster on a single mid-range GPU than editable motion diffusion models. Our
project page is available at \url{https://exitudio.github.io/MMM-page}.
- Abstract(参考訳): 拡散モデルと自己回帰モデルを用いたテキスト対運動生成の最近の進歩は、有望な結果を示している。
しかし、これらのモデルは、しばしばリアルタイムパフォーマンス、高い忠実度、そして動画編集性の間のトレードオフに苦しむ。
このギャップに対処するために,マスクドモーションモデルに基づいた,新しい,かつシンプルなモーション生成パラダイムmmmを紹介する。
MMMは,(1)3次元人間の動きを潜在空間内の離散トークンの列に変換するモーショントークンライザ,(2)予め計算されたテキストトークンに条件付けされたランダムなマスク付きモーショントークンの予測を学習する条件付きマスク付きモーショントランスフォーマーの2つの重要な構成要素から構成される。
あらゆる方向に動きやテキストトークンに出席することで、MMMはモーショントークン間の固有の依存関係と、モーショントークンとテキストトークン間のセマンティックマッピングを明示的にキャプチャする。
推論の間、これは細かなテキスト記述と高い一貫性を持つ複数の動きトークンの並列および反復的なデコードを可能にするため、忠実度と高速の動作生成を同時に実現する。
さらに、MMMは自然に動きを編集できる。
編集が必要な場所にマスクトークンを配置するだけで、mmmは自動的にギャップを埋めると同時に、編集と非編集間のスムーズな遷移を保証する。
HumanML3D と KIT-ML データセットの大規模な実験により、MMM は高品質な動作(FID スコアが 0.08 と 0.429 より優れていると推定される)を生成する上で、現在の先進的な手法を超越し、ボディ部分修正、モーション・イン・ベントワイニング、ロングモーション・シーケンスの合成などの高度な編集機能を提供する。
さらに、MMMは編集可能な運動拡散モデルよりも1つの中距離GPUで2桁高速である。
プロジェクトページは \url{https://exitudio.github.io/mmm-page} で閲覧できます。
関連論文リスト
- FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - MoMask: Generative Masked Modeling of 3D Human Motions [25.168781728071046]
MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。
階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。
MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-29T19:04:10Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。