Fugu-MT 論文翻訳(概要): TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration

論文の概要: TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration

arxiv url: http://arxiv.org/abs/2304.02419v2
Date: Sun, 1 Oct 2023 15:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 19:49:44.146766
Title: TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration
Title（参考訳）: TM2D:音楽テキスト統合によるバイモーダリティ駆動型3Dダンス生成
Authors: Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Zihang Jiang, Xinxin Zuo, Michael Bi Mi, Xinchao Wang
Abstract要約: テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
参考スコア（独自算出の注目度）: 75.37311932218773
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel task for generating 3D dance movements that simultaneously incorporate both text and music modalities. Unlike existing works that generate dance movements using a single modality such as music, our goal is to produce richer dance movements guided by the instructive information provided by the text. However, the lack of paired motion data with both music and text modalities limits the ability to generate dance movements that integrate both. To alleviate this challenge, we propose to utilize a 3D human motion VQ-VAE to project the motions of the two datasets into a latent space consisting of quantized vectors, which effectively mix the motion tokens from the two datasets with different distributions for training. Additionally, we propose a cross-modal transformer to integrate text instructions into motion generation architecture for generating 3D dance movements without degrading the performance of music-conditioned dance generation. To better evaluate the quality of the generated motion, we introduce two novel metrics, namely Motion Prediction Distance (MPD) and Freezing Score (FS), to measure the coherence and freezing percentage of the generated motion. Extensive experiments show that our approach can generate realistic and coherent dance movements conditioned on both text and music while maintaining comparable performance with the two single modalities. Code is available at https://garfield-kh.github.io/TM2D/.
Abstract（参考訳）: テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。音楽などの単一モダリティを用いてダンスの動きを生成する既存の作品とは違って,本文から提供される指導的情報によって導かれるよりリッチなダンスの動きを生み出すことが目的である。しかし、音楽とテキストのモダリティと組み合わせたモーションデータの欠如は、両方を統合するダンスの動きを生成する能力を制限する。この課題を解決するために,我々は,2つのデータセットの動作を量子化されたベクトルからなる潜在空間に投影するために,人間の3次元動作VQ-VAEを利用することを提案する。さらに,音楽条件付きダンス生成の性能を低下させることなく3次元ダンス動作を生成するモーション生成アーキテクチャにテキスト命令を統合するクロスモーダルトランスフォーマティブを提案する。生成した動きの質をよりよく評価するために、生成した動きのコヒーレンスと凍結率を測定するために、運動予測距離(MPD)と凍結スコア(FS)という2つの新しい指標を導入する。広汎な実験により,本手法は2つの単一モダリティに匹敵する性能を維持しつつ,テキストと音楽の両方に調和したリアルかつコヒーレントなダンスの動きを生成できることが示されている。コードはhttps://garfield-kh.github.io/tm2d/で入手できる。

関連論文リスト

UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文参考訳（メタデータ） (2025-12-03T16:03:18Z)
MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation [16.657210427678198]
テキスト制御および音楽条件付き3Dデュエットダンスモーション生成用に設計された多モードベンチマークデータセットであるMultimodal DuetDance(MDD)を紹介する。我々のデータセットは、プロのダンサーが行う620分間の高品質なモーションキャプチャーデータからなり、音楽と同期し、10K以上のきめ細かい自然言語記述を詳述する。アノテーションは、空間的関係、身体の動き、リズムを詳述し、人間の動き、音楽、そしてデュエットダンス生成のためのテキストをシームレスに統合する最初のデータセットとなる。
論文参考訳（メタデータ） (2025-08-23T05:56:37Z)
X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文参考訳（メタデータ） (2025-02-24T18:47:54Z)
InterDance:Reactive 3D Dance Generation with Realistic Duet Interactions [67.37790144477503]
動きの質、データスケール、さまざまなダンスジャンルを大幅に向上させる大規模なデュエットダンスデータセットであるInterDanceを提案する。本稿では,対話のリアリズムを段階的に最適化するためのインタラクション改善指導戦略を備えた拡散型フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-22T11:53:51Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
MIDGET: Music Conditioned 3D Dance Generation [13.067687949642641]
MIDGETと呼ばれるMusIc条件付き3DダンスGeneraTionモデルを導入し、音楽リズムに合わせて鮮やかで高品質なダンスを生成する。フィールドにおける課題に対処するため,1) 異なるポーズ符号を格納するためのモーションVQ-VAEモデルに基づく事前学習されたメモリコードブック,2) 音楽とモーションの短縮によるポーズ符号を生成するモーションGPTモデル,3) 音楽特徴抽出のためのシンプルなフレームワーク,の3つの新しいコンポーネントを紹介した。
論文参考訳（メタデータ） (2024-04-18T10:20:37Z)
Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文参考訳（メタデータ） (2024-03-27T17:57:02Z)
LM2D: Lyrics- and Music-Driven Dance Synthesis [28.884929875333846]
LM2Dは、音楽と歌詞の両方で、ひとつの拡散生成ステップでダンスコンディションを作成するように設計されている。ポーズ推定技術を用いて,音楽と歌詞の両方を包含する最初の3次元ダンスモーションデータセットを提案する。その結果、LM2Dは歌詞と音楽の両方にマッチするリアルで多様なダンスを制作できることを示した。
論文参考訳（メタデータ） (2024-03-14T13:59:04Z)
Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文参考訳（メタデータ） (2024-02-06T19:42:18Z)
BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文参考訳（メタデータ） (2023-12-13T07:30:19Z)
Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文参考訳（メタデータ） (2021-12-03T09:37:26Z)
Transflower: probabilistic autoregressive dance generation with multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文参考訳（メタデータ） (2021-06-25T20:14:28Z)
DanceFormer: Music Conditioned 3D Dance Generation with Parametric Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文参考訳（メタデータ） (2021-03-18T12:17:38Z)
Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。大規模なダンスモーションデータセットはYouTubeビデオから作成される。新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文参考訳（メタデータ） (2020-08-18T22:29:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。