論文の概要: DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation
- arxiv url: http://arxiv.org/abs/2308.02915v1
- Date: Sat, 5 Aug 2023 16:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:59:43.587255
- Title: DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation
- Title(参考訳): DiffDance:ダンス生成のためのケースド・ヒューマンモーション拡散モデル
- Authors: Qiaosong Qi, Le Zhuo, Aixi Zhang, Yue Liao, Fei Fang, Si Liu,
Shuicheng Yan
- Abstract要約: 本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
- 参考スコア(独自算出の注目度): 89.50310360658791
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When hearing music, it is natural for people to dance to its rhythm.
Automatic dance generation, however, is a challenging task due to the physical
constraints of human motion and rhythmic alignment with target music.
Conventional autoregressive methods introduce compounding errors during
sampling and struggle to capture the long-term structure of dance sequences. To
address these limitations, we present a novel cascaded motion diffusion model,
DiffDance, designed for high-resolution, long-form dance generation. This model
comprises a music-to-dance diffusion model and a sequence super-resolution
diffusion model. To bridge the gap between music and motion for conditional
generation, DiffDance employs a pretrained audio representation learning model
to extract music embeddings and further align its embedding space to motion via
contrastive loss. During training our cascaded diffusion model, we also
incorporate multiple geometric losses to constrain the model outputs to be
physically plausible and add a dynamic loss weight that adaptively changes over
diffusion timesteps to facilitate sample diversity. Through comprehensive
experiments performed on the benchmark dataset AIST++, we demonstrate that
DiffDance is capable of generating realistic dance sequences that align
effectively with the input music. These results are comparable to those
achieved by state-of-the-art autoregressive methods.
- Abstract(参考訳): 音楽を聞くと、人々がリズムに合わせて踊るのは自然なことです。
しかし, 自動ダンス生成は, 人の動きの物理的制約や, 対象音楽とのリズムアライメントなどにより, 難しい課題である。
従来の自己回帰法は、サンプリング中に複合的なエラーを導入し、ダンスシーケンスの長期構造を捉えるのに苦労する。
これらの制限に対処するために,高分解能長尺ダンス生成のための新しいカスケード動拡散モデルdiffdanceを提案する。
このモデルは、音楽間拡散モデルとシーケンス超解像拡散モデルからなる。
条件生成のための音楽と動きのギャップを埋めるために、DiffDanceは事前訓練された音声表現学習モデルを用いて、音楽埋め込みを抽出し、その埋め込み空間をコントラッシブ・ロスを介して動きに合わせる。
また, 拡散モデルのトレーニング中に, モデル出力を物理的に妥当に制限するために, 複数の幾何学的損失を組み込んで, 拡散時間の経過とともに適応的に変化する動的損失重みを加えた。
ベンチマークデータセット aist++ を用いた包括的実験により,ディフュージョンは入力音楽と効果的に一致する現実的なダンスシーケンスを生成できることを実証した。
これらの結果は、最先端の自己回帰法による結果に匹敵する。
関連論文リスト
- Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives [50.37531720524434]
与えられた音楽に条件付けされた非常に長いダンスシーケンスを生成することができるネットワークであるLodgeを提案する。
提案手法は,グローバルな振付パターンと局所的な動きの質,表現性とのバランスを保ちながら,非常に長いダンスシーケンスを並列に生成することができる。
論文 参考訳(メタデータ) (2024-03-15T17:59:33Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model [3.036230795326545]
LongDanceDiffは、シーケンス・ツー・シーケンスの長期ダンス生成のための条件付き拡散モデルである。
時間的一貫性と空間的制約の課題に対処する。
また,フットスライディングやアンスムース動作など,ダンス生成における視覚的品質の問題にも対処する。
論文 参考訳(メタデータ) (2023-08-23T06:37:41Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - Dance Revolution: Long-Term Dance Generation with Music via Curriculum
Learning [55.854205371307884]
音楽条件付きダンス生成をシーケンス・ツー・シーケンスの学習問題として定式化する。
本稿では,長動き列生成における自己回帰モデルの誤り蓄積を軽減するための新しいカリキュラム学習戦略を提案する。
提案手法は,自動計測と人的評価において,既存の最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-06-11T00:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。