論文の概要: Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
- arxiv url: http://arxiv.org/abs/2405.09266v1
- Date: Wed, 15 May 2024 11:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:46:20.071295
- Title: Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
- Title(参考訳): ダンス・アニー・ビート:ダンス・ビデオ・ジェネレーションのビジュアル・ビート
- Authors: Xuanchen Wang, Heng Wang, Dongnan Liu, Weidong Cai,
- Abstract要約: 本研究ではDance Any Beat Diffusionモデル、すなわちDabFusionを導入し、静止画から直接ダンスビデオを作成する条件入力として音楽を利用する。
このアプローチは、画像とビデオの合成における条件付け因子としての音楽の使用を先導する。
提案手法は,参照フレームと駆動フレーム間の遅延光フローを予測するオートエンコーダのトレーニングと,遅延光フローを生成するためにU-Netベースの拡散モデルをトレーニングする2段階に展開する。
- 参考スコア(独自算出の注目度): 12.018432669719742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of generating dance from music is crucial, yet current methods, which mainly produce joint sequences, lead to outputs that lack intuitiveness and complicate data collection due to the necessity for precise joint annotations. We introduce a Dance Any Beat Diffusion model, namely DabFusion, that employs music as a conditional input to directly create dance videos from still images, utilizing conditional image-to-video generation principles. This approach pioneers the use of music as a conditioning factor in image-to-video synthesis. Our method unfolds in two stages: training an auto-encoder to predict latent optical flow between reference and driving frames, eliminating the need for joint annotation, and training a U-Net-based diffusion model to produce these latent optical flows guided by music rhythm encoded by CLAP. Although capable of producing high-quality dance videos, the baseline model struggles with rhythm alignment. We enhance the model by adding beat information, improving synchronization. We introduce a 2D motion-music alignment score (2D-MM Align) for quantitative assessment. Evaluated on the AIST++ dataset, our enhanced model shows marked improvements in 2D-MM Align score and established metrics. Video results can be found on our project page: https://DabFusion.github.io.
- Abstract(参考訳): 音楽からダンスを生成するタスクは不可欠であるが、現在の方法では主にジョイントシーケンスを生成するため、直感性が欠如し、正確なジョイントアノテーションを必要とするため、データ収集が複雑になる。
本研究ではDance Any Beat Diffusionモデル,すなわちDabFusionを導入し,静止画像から直接ダンスビデオを生成する条件入力として音楽を利用する。
このアプローチは、画像とビデオの合成における条件付け因子としての音楽の使用を先導する。
提案手法は,参照フレームと駆動フレーム間の遅延光フローを予測するオートエンコーダのトレーニング,ジョイントアノテーションの不要化,およびCLAPで符号化された音楽リズムによって導かれる潜光フローを生成するためにU-Netベースの拡散モデルのトレーニングの2段階に展開する。
高品質なダンスビデオを作ることができるが、ベースラインモデルはリズムアライメントに苦慮している。
我々は、ビート情報を追加し、同期を改善してモデルを強化する。
定量的評価のための2D-MMアライメントスコア(2D-MMアライメントスコア)を導入する。
AIST++データセットから評価すると、2D-MM Alignスコアと確立されたメトリクスの顕著な改善が示されている。
ビデオの結果はプロジェクトのページで確認できます。
関連論文リスト
- Automatic Dance Video Segmentation for Understanding Choreography [10.053913399613764]
本研究では,ダンスビデオを自動的に各動作に分割する手法を提案する。
トレーニングデータセットを構築するために、AIST Dance Video Databaseでセグメンテーションポイントをアノテートしてビデオをダンスする。
評価の結果,提案手法は高い精度でセグメンテーション点を推定できることがわかった。
論文 参考訳(メタデータ) (2024-05-30T06:19:01Z) - DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。
このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。
本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文 参考訳(メタデータ) (2024-03-20T15:24:57Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - Music-Driven Group Choreography [10.501572863039852]
$rm AIOZ-GDANCE$は、音楽駆動のグループダンス生成のための新しい大規模データセットである。
集団舞踊運動の生成に単一舞踊生成法を鼻で適用することで,満足のいく結果が得られないことが示唆された。
本稿では,複数のグループコヒーレントな振付を効率よく作成するために,入力音楽シーケンスとダンサーの3D位置のセットを取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:26:56Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - DanceIt: Music-inspired Dancing Video Synthesis [38.87762996956861]
本稿では,コンピュータビジョンシステム内での人間関係のこのような能力の再現を提案する。
提案システムは3つのモジュールから構成される。
生成されたダンスビデオは、音楽の内容とリズムにマッチします。
論文 参考訳(メタデータ) (2020-09-17T02:29:13Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。