Fugu-MT 論文翻訳(概要): Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

論文の概要: Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

arxiv url: http://arxiv.org/abs/2405.09266v2
Date: Tue, 16 Jul 2024 07:09:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:49:21.498784
Title: Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
Title（参考訳）: ダンス・アニー・ビート:ダンス・ビデオ・ジェネレーションのビジュアル・ビート
Authors: Xuanchen Wang, Heng Wang, Dongnan Liu, Weidong Cai,
Abstract要約: 音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。 AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
参考スコア（独自算出の注目度）: 12.018432669719742
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated choreography advances by generating dance from music. Current methods create skeleton keypoint sequences, not full dance videos, and cannot make specific individuals dance, limiting their real-world use. These methods also need precise keypoint annotations, making data collection difficult and restricting the use of self-made video datasets. To overcome these challenges, we introduce a novel task: generating dance videos directly from images of individuals guided by music. This task enables the dance generation of specific individuals without requiring keypoint annotations, making it more versatile and applicable to various situations. Our solution, the Dance Any Beat Diffusion model (DabFusion), utilizes a reference image and a music piece to generate dance videos featuring various dance types and choreographies. The music is analyzed by our specially designed music encoder, which identifies essential features including dance style, movement, and rhythm. DabFusion excels in generating dance videos not only for individuals in the training dataset but also for any previously unseen person. This versatility stems from its approach of generating latent optical flow, which contains all necessary motion information to animate any person in the image. We evaluate DabFusion's performance using the AIST++ dataset, focusing on video quality, audio-video synchronization, and motion-music alignment. We propose a 2D Motion-Music Alignment Score (2D-MM Align), which builds on the Beat Alignment Score to more effectively evaluate motion-music alignment for this new task. Experiments show that our DabFusion establishes a solid baseline for this innovative task. Video results can be found on our project page: https://DabFusion.github.io.
Abstract（参考訳）: 自動振付は、音楽からダンスを生成することによって進行する。現在の方法では、完全なダンスビデオではなくスケルトンキーポイントシーケンスを作成し、実際の使用を制限することで、特定の個人がダンスをすることができない。これらのメソッドには正確なキーポイントアノテーションも必要であり、データの収集が難しくなり、自作のビデオデータセットの使用が制限される。これらの課題を克服するために、音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。このタスクは、キーポイントアノテーションを必要とせず、特定の個人のダンス生成を可能にする。我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用して、さまざまなダンスタイプや振付を特徴とするダンスビデオを生成する。音楽は、ダンススタイル、ムーブメント、リズムといった重要な特徴を識別する、特別に設計された音楽エンコーダによって分析される。 DabFusionは、トレーニングデータセットの個人だけでなく、これまで目に見えない人でもダンスビデオを生成するのに長けている。この汎用性は、画像中の任意の人物をアニメーションするために必要なすべての動き情報を含む潜在光学フローを生成するというアプローチに起因している。 AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。本研究では、ビートアライメントスコアをベースとした2次元モーションミュージックアライメントスコア(2D-MMアライメントスコア)を提案する。実験の結果、我々のDabFusionがこの革新的なタスクの確かなベースラインを確立していることがわかった。ビデオの結果はプロジェクトのページで確認できます。

関連論文リスト

X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文参考訳（メタデータ） (2025-02-24T18:47:54Z)
Every Image Listens, Every Image Dances: Music-Driven Image Animation [8.085267959520843]
MuseDanceは、音楽とテキストの両方の入力を使って画像を参照するエンド・ツー・エンドのモデルである。既存のアプローチとは異なり、MuseDanceはポーズや深さシーケンスのような複雑なモーションガイダンス入力を必要としない。本稿では,2,904本のダンスビデオと,それに対応する背景音楽とテキスト記述を含むマルチモーダルデータセットを提案する。
論文参考訳（メタデータ） (2025-01-30T23:38:51Z)
Automatic Dance Video Segmentation for Understanding Choreography [10.053913399613764]
本研究では,ダンスビデオを自動的に各動作に分割する手法を提案する。トレーニングデータセットを構築するために、AIST Dance Video Databaseでセグメンテーションポイントをアノテートしてビデオをダンスする。評価の結果,提案手法は高い精度でセグメンテーション点を推定できることがわかった。
論文参考訳（メタデータ） (2024-05-30T06:19:01Z)
DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文参考訳（メタデータ） (2024-03-20T15:24:57Z)
TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文参考訳（メタデータ） (2023-04-05T12:58:33Z)
Music-Driven Group Choreography [10.501572863039852]
$rm AIOZ-GDANCE$は、音楽駆動のグループダンス生成のための新しい大規模データセットである。集団舞踊運動の生成に単一舞踊生成法を鼻で適用することで,満足のいく結果が得られないことが示唆された。本稿では,複数のグループコヒーレントな振付を効率よく作成するために,入力音楽シーケンスとダンサーの3D位置のセットを取り入れた新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-22T06:26:56Z)
BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。 BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文参考訳（メタデータ） (2022-07-20T18:03:54Z)
Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-24T13:06:43Z)
Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文参考訳（メタデータ） (2021-12-03T09:37:26Z)
DanceFormer: Music Conditioned 3D Dance Generation with Parametric Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文参考訳（メタデータ） (2021-03-18T12:17:38Z)
DanceIt: Music-inspired Dancing Video Synthesis [38.87762996956861]
本稿では,コンピュータビジョンシステム内での人間関係のこのような能力の再現を提案する。提案システムは3つのモジュールから構成される。生成されたダンスビデオは、音楽の内容とリズムにマッチします。
論文参考訳（メタデータ） (2020-09-17T02:29:13Z)
Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。大規模なダンスモーションデータセットはYouTubeビデオから作成される。新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文参考訳（メタデータ） (2020-08-18T22:29:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。