論文の概要: QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation
- arxiv url: http://arxiv.org/abs/2403.11626v1
- Date: Mon, 18 Mar 2024 09:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:47:44.307042
- Title: QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation
- Title(参考訳): QEAN:視覚ダンス生成のための第四次拡張アテンションネットワーク
- Authors: Zhizhen Zhou, Yejing Huo, Guoheng Huang, An Zeng, Xuhang Chen, Lian Huang, Zinuo Li,
- Abstract要約: 四元数を考慮した視覚舞踊合成のための四元数拡張注意ネットワーク(QEAN)を提案する。
第一に、SPEは位置情報を回転的に自己注意に埋め込み、運動シーケンスと音声シーケンスの特徴をよりよく学習する。
第2に、QRAは一連の四元数という形で3Dモーション特徴とオーディオ特徴を表現・融合し、モデルが音楽とダンスの時間的調整をよりよく学習できるようにする。
- 参考スコア(独自算出の注目度): 6.060426136203966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of music-generated dance is a novel and challenging Image generation task. It aims to input a piece of music and seed motions, then generate natural dance movements for the subsequent music. Transformer-based methods face challenges in time series prediction tasks related to human movements and music due to their struggle in capturing the nonlinear relationship and temporal aspects. This can lead to issues like joint deformation, role deviation, floating, and inconsistencies in dance movements generated in response to the music. In this paper, we propose a Quaternion-Enhanced Attention Network (QEAN) for visual dance synthesis from a quaternion perspective, which consists of a Spin Position Embedding (SPE) module and a Quaternion Rotary Attention (QRA) module. First, SPE embeds position information into self-attention in a rotational manner, leading to better learning of features of movement sequences and audio sequences, and improved understanding of the connection between music and dance. Second, QRA represents and fuses 3D motion features and audio features in the form of a series of quaternions, enabling the model to better learn the temporal coordination of music and dance under the complex temporal cycle conditions of dance generation. Finally, we conducted experiments on the dataset AIST++, and the results show that our approach achieves better and more robust performance in generating accurate, high-quality dance movements. Our source code and dataset can be available from https://github.com/MarasyZZ/QEAN and https://google.github.io/aistplusplus_dataset respectively.
- Abstract(参考訳): 音楽生成ダンスの研究は、新しくて挑戦的な画像生成タスクである。
音楽や種の動きを入力し、その後の音楽の自然なダンスの動きを生成することを目的としている。
トランスフォーマーに基づく手法は、非線型関係や時間的側面の把握に苦慮しているため、人間の動きや音楽に関連する時系列予測タスクにおいて課題に直面している。
これは、関節の変形、役割のずれ、浮き彫り、そして音楽に反応して生じるダンスの動きの不整合などの問題を引き起こす可能性がある。
本稿では、スピン位置埋め込み (SPE) モジュールと四元回転注意 (QRA) モジュールからなる四元数視点の視覚舞踊合成のための四元数拡張注意ネットワーク(QEAN)を提案する。
まず、SPEは位置情報を回転的に自己注意に埋め込み、運動シーケンスと音声シーケンスの特徴をよりよく学習し、音楽とダンスの関連性について理解を深める。
第2に、QRAは連続した四重項の形で3次元運動特徴と音響特徴を表現・融合し、ダンス生成の複雑な時間サイクル条件下での音楽とダンスの時間的調整をよりよく学習することを可能にする。
最後に,データセットAIST++の実験を行い,その結果から,高精度で高品質なダンス運動を生成する上で,より優れた,より堅牢なパフォーマンスを実現することができた。
ソースコードとデータセットは、https://github.com/MarasyZZ/QEAN と https://google.github.io/aistplus_dataset から入手可能です。
関連論文リスト
- TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - Learn to Dance with AIST++: Music Conditioned 3D Dance Generation [28.623222697548456]
音楽に基づく3Dダンス生成のためのトランスフォーマーに基づく学習フレームワークを提案する。
また、AISTのマルチビューダンスビデオから再構成した、AIST++と呼ばれる3Dモーションと音楽のペア化データセットを提案する。
論文 参考訳(メタデータ) (2021-01-21T18:59:22Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z) - Dance Revolution: Long-Term Dance Generation with Music via Curriculum
Learning [55.854205371307884]
音楽条件付きダンス生成をシーケンス・ツー・シーケンスの学習問題として定式化する。
本稿では,長動き列生成における自己回帰モデルの誤り蓄積を軽減するための新しいカリキュラム学習戦略を提案する。
提案手法は,自動計測と人的評価において,既存の最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-06-11T00:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。