論文の概要: TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration
- arxiv url: http://arxiv.org/abs/2304.02419v1
- Date: Wed, 5 Apr 2023 12:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:33:17.434281
- Title: TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration
- Title(参考訳): TM2D:音楽テキスト統合によるバイモーダリティ駆動型3Dダンス生成
- Authors: Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Xinxin Zuo, Zihang
Jiang, Xinchao Wang
- Abstract要約: テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
- 参考スコア(独自算出の注目度): 61.992027117690036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel task for generating 3D dance movements that simultaneously
incorporate both text and music modalities. Unlike existing works that generate
dance movements using a single modality such as music, our goal is to produce
richer dance movements guided by the instructive information provided by the
text. However, the lack of paired motion data with both music and text
modalities limits the ability to generate dance movements that integrate both.
To alleviate this challenge, we propose to utilize a 3D human motion VQ-VAE to
project the motions of the two datasets into a latent space consisting of
quantized vectors, which effectively mix the motion tokens from the two
datasets with different distributions for training. Additionally, we propose a
cross-modal transformer to integrate text instructions into motion generation
architecture for generating 3D dance movements without degrading the
performance of music-conditioned dance generation. To better evaluate the
quality of the generated motion, we introduce two novel metrics, namely Motion
Prediction Distance (MPD) and Freezing Score, to measure the coherence and
freezing percentage of the generated motion. Extensive experiments show that
our approach can generate realistic and coherent dance movements conditioned on
both text and music while maintaining comparable performance with the two
single modalities. Code will be available at:
https://garfield-kh.github.io/TM2D/.
- Abstract(参考訳): テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
音楽などの単一モダリティを用いてダンスの動きを生成する既存の作品とは違って,本文から提供される指導的情報によって導かれるよりリッチなダンスの動きを生み出すことが目的である。
しかし、音楽とテキストのモダリティと組み合わせたモーションデータの欠如は、両方を統合するダンスの動きを生成する能力を制限する。
この課題を解決するために,我々は,2つのデータセットの動作を量子化されたベクトルからなる潜在空間に投影するために,人間の3次元動作VQ-VAEを利用することを提案する。
さらに,音楽条件付きダンス生成の性能を低下させることなく3次元ダンス動作を生成するモーション生成アーキテクチャにテキスト命令を統合するクロスモーダルトランスフォーマティブを提案する。
生成した動きの質をよりよく評価するために、生成した動きのコヒーレンスと凍結率を測定するために、運動予測距離(MPD)と凍結スコアという2つの新しい指標を導入する。
広汎な実験により,本手法は2つの単一モダリティに匹敵する性能を維持しつつ,テキストと音楽の両方に調和したリアルかつコヒーレントなダンスの動きを生成できることが示されている。
コードは、https://garfield-kh.github.io/TM2D/.comで入手できる。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MIDGET: Music Conditioned 3D Dance Generation [13.067687949642641]
MIDGETと呼ばれるMusIc条件付き3DダンスGeneraTionモデルを導入し、音楽リズムに合わせて鮮やかで高品質なダンスを生成する。
フィールドにおける課題に対処するため,1) 異なるポーズ符号を格納するためのモーションVQ-VAEモデルに基づく事前学習されたメモリコードブック,2) 音楽とモーションの短縮によるポーズ符号を生成するモーションGPTモデル,3) 音楽特徴抽出のためのシンプルなフレームワーク,の3つの新しいコンポーネントを紹介した。
論文 参考訳(メタデータ) (2024-04-18T10:20:37Z) - Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - LM2D: Lyrics- and Music-Driven Dance Synthesis [28.884929875333846]
LM2Dは、音楽と歌詞の両方で、ひとつの拡散生成ステップでダンスコンディションを作成するように設計されている。
ポーズ推定技術を用いて,音楽と歌詞の両方を包含する最初の3次元ダンスモーションデータセットを提案する。
その結果、LM2Dは歌詞と音楽の両方にマッチするリアルで多様なダンスを制作できることを示した。
論文 参考訳(メタデータ) (2024-03-14T13:59:04Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。