論文の概要: Learn to Dance with AIST++: Music Conditioned 3D Dance Generation
- arxiv url: http://arxiv.org/abs/2101.08779v2
- Date: Tue, 2 Feb 2021 05:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 10:32:34.770193
- Title: Learn to Dance with AIST++: Music Conditioned 3D Dance Generation
- Title(参考訳): AIST++でダンスを学ぶ:音楽条件付き3Dダンス生成
- Authors: Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa
- Abstract要約: 音楽に基づく3Dダンス生成のためのトランスフォーマーに基づく学習フレームワークを提案する。
また、AISTのマルチビューダンスビデオから再構成した、AIST++と呼ばれる3Dモーションと音楽のペア化データセットを提案する。
- 参考スコア(独自算出の注目度): 28.623222697548456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a transformer-based learning framework for 3D dance
generation conditioned on music. We carefully design our network architecture
and empirically study the keys for obtaining qualitatively pleasing results.
The critical components include a deep cross-modal transformer, which well
learns the correlation between the music and dance motion; and the
full-attention with future-N supervision mechanism which is essential in
producing long-range non-freezing motion. In addition, we propose a new dataset
of paired 3D motion and music called AIST++, which we reconstruct from the AIST
multi-view dance videos. This dataset contains 1.1M frames of 3D dance motion
in 1408 sequences, covering 10 genres of dance choreographies and accompanied
with multi-view camera parameters. To our knowledge it is the largest dataset
of this kind. Rich experiments on AIST++ demonstrate our method produces much
better results than the state-of-the-art methods both qualitatively and
quantitatively.
- Abstract(参考訳): 本稿では,音楽に基づく3Dダンス生成のためのトランスフォーマーに基づく学習フレームワークを提案する。
ネットワークアーキテクチャを慎重に設計し,定性的に満足な結果を得るための鍵を実証的に研究する。
重要なコンポーネントには、音楽とダンスの動きの相関をよく学習する深いクロスモーダルトランスフォーマーや、長距離の非凍結運動を生成するのに必須のfuture-n監督機構との完全な対応が含まれる。
さらに,AISTのマルチビュー・ダンス・ビデオから再構成したAIST++と呼ばれる3Dモーションと音楽のペアデータセットを提案する。
このデータセットは、1408列の3Dダンスモーションの1.1Mフレームを含み、10種類のダンスコレオグラフィーをカバーし、マルチビューカメラパラメータを伴っている。
私たちの知る限り、これはこの種の最大のデータセットです。
AIST++のリッチな実験により、我々の手法は定性的かつ定量的に最先端の手法よりもはるかに優れた結果が得られることを示した。
関連論文リスト
- DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。
本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文 参考訳(メタデータ) (2024-09-23T11:20:44Z) - MIDGET: Music Conditioned 3D Dance Generation [13.067687949642641]
MIDGETと呼ばれるMusIc条件付き3DダンスGeneraTionモデルを導入し、音楽リズムに合わせて鮮やかで高品質なダンスを生成する。
フィールドにおける課題に対処するため,1) 異なるポーズ符号を格納するためのモーションVQ-VAEモデルに基づく事前学習されたメモリコードブック,2) 音楽とモーションの短縮によるポーズ符号を生成するモーションGPTモデル,3) 音楽特徴抽出のためのシンプルなフレームワーク,の3つの新しいコンポーネントを紹介した。
論文 参考訳(メタデータ) (2024-04-18T10:20:37Z) - DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。
このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。
本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文 参考訳(メタデータ) (2024-03-20T15:24:57Z) - QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation [6.060426136203966]
四元数を考慮した視覚舞踊合成のための四元数拡張注意ネットワーク(QEAN)を提案する。
第一に、SPEは位置情報を回転的に自己注意に埋め込み、運動シーケンスと音声シーケンスの特徴をよりよく学習する。
第2に、QRAは一連の四元数という形で3Dモーション特徴とオーディオ特徴を表現・融合し、モデルが音楽とダンスの時間的調整をよりよく学習できるようにする。
論文 参考訳(メタデータ) (2024-03-18T09:58:43Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition [13.289339907084424]
階層型ダンスビデオ認識フレームワーク(HDVR)を提案する。
HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。
推定した3Dポーズシーケンスから、HDVRは身体部分の動きを抽出し、ダンスジャンルから抽出する。
論文 参考訳(メタデータ) (2021-09-19T16:59:37Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。