論文の概要: MIDGET: Music Conditioned 3D Dance Generation
- arxiv url: http://arxiv.org/abs/2404.12062v1
- Date: Thu, 18 Apr 2024 10:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:41:30.603621
- Title: MIDGET: Music Conditioned 3D Dance Generation
- Title(参考訳): MIDGET:音楽コンディション付き3Dダンスジェネレーション
- Authors: Jinwu Wang, Wei Mao, Miaomiao Liu,
- Abstract要約: MIDGETと呼ばれるMusIc条件付き3DダンスGeneraTionモデルを導入し、音楽リズムに合わせて鮮やかで高品質なダンスを生成する。
フィールドにおける課題に対処するため,1) 異なるポーズ符号を格納するためのモーションVQ-VAEモデルに基づく事前学習されたメモリコードブック,2) 音楽とモーションの短縮によるポーズ符号を生成するモーションGPTモデル,3) 音楽特徴抽出のためのシンプルなフレームワーク,の3つの新しいコンポーネントを紹介した。
- 参考スコア(独自算出の注目度): 13.067687949642641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a MusIc conditioned 3D Dance GEneraTion model, named MIDGET based on Dance motion Vector Quantised Variational AutoEncoder (VQ-VAE) model and Motion Generative Pre-Training (GPT) model to generate vibrant and highquality dances that match the music rhythm. To tackle challenges in the field, we introduce three new components: 1) a pre-trained memory codebook based on the Motion VQ-VAE model to store different human pose codes, 2) employing Motion GPT model to generate pose codes with music and motion Encoders, 3) a simple framework for music feature extraction. We compare with existing state-of-the-art models and perform ablation experiments on AIST++, the largest publicly available music-dance dataset. Experiments demonstrate that our proposed framework achieves state-of-the-art performance on motion quality and its alignment with the music.
- Abstract(参考訳): 本稿では,ダンスモーションベクトル量子変分オートエンコーダ(VQ-VAE)モデルと運動生成前訓練(GPT)モデルに基づいて,MIDGETと命名されたMuseIc条件付き3DダンスGeneraTionモデルを紹介し,音楽リズムに適合する鮮明で高品質なダンスを生成する。
この分野の課題に取り組むために、我々は3つの新しいコンポーネントを紹介します。
1)モーションVQ-VAEモデルに基づく事前学習されたメモリコードブックで、異なる人間のポーズコードを保存する。
2)Motion GPTモデルを用いて音楽とモーションエンコーダによるポーズコードを生成する。
3)音楽特徴抽出のためのシンプルなフレームワーク。
我々は、既存の最先端モデルと比較し、AIST++上でアブレーション実験を行う。
実験により,提案するフレームワークは,動作品質と音楽との整合性に関する最先端のパフォーマンスを実現することを示す。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Explore 3D Dance Generation via Reward Model from Automatically-Ranked
Demonstrations [18.56485266484622]
本稿では,既存の音楽条件の3Dダンス生成モデルにおいて,探索的3Dダンス生成フレームワークであるE3D2を提案する。
E3D2フレームワークには、自動的にランク付けされたダンスのデモンストレーションからトレーニングされた報酬モデルが含まれており、強化学習プロセスのガイドとなる。
論文 参考訳(メタデータ) (2023-12-18T18:45:38Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - Learn to Dance with AIST++: Music Conditioned 3D Dance Generation [28.623222697548456]
音楽に基づく3Dダンス生成のためのトランスフォーマーに基づく学習フレームワークを提案する。
また、AISTのマルチビューダンスビデオから再構成した、AIST++と呼ばれる3Dモーションと音楽のペア化データセットを提案する。
論文 参考訳(メタデータ) (2021-01-21T18:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。