論文の概要: Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.22138v1
- Date: Fri, 28 Mar 2025 04:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:04.915304
- Title: Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model
- Title(参考訳): 負条件潜時拡散モデルによるダンス・ツー・ミュージック生成の促進
- Authors: Changchang Sun, Gaowen Liu, Charles Fleming, Yan Yan,
- Abstract要約: 条件拡散モデルは、クロスモーダル合成の印象的な結果から注目されている。
本稿では,ダンスビデオのリズミカル・ヴィジュアル・キューと同期した音楽生成の問題に焦点をあてる。
本稿では,正のリズミカル情報と負のリズミカル情報の両方を採用することで,生成された音楽の質とダンスビデオとの同期性を高めることを提案する。
- 参考スコア(独自算出の注目度): 13.693082830029224
- License:
- Abstract: Conditional diffusion models have gained increasing attention since their impressive results for cross-modal synthesis, where the strong alignment between conditioning input and generated output can be achieved by training a time-conditioned U-Net augmented with cross-attention mechanism. In this paper, we focus on the problem of generating music synchronized with rhythmic visual cues of the given dance video. Considering that bi-directional guidance is more beneficial for training a diffusion model, we propose to enhance the quality of generated music and its synchronization with dance videos by adopting both positive rhythmic information and negative ones (PN-Diffusion) as conditions, where a dual diffusion and reverse processes is devised. Specifically, to train a sequential multi-modal U-Net structure, PN-Diffusion consists of a noise prediction objective for positive conditioning and an additional noise prediction objective for negative conditioning. To accurately define and select both positive and negative conditioning, we ingeniously utilize temporal correlations in dance videos, capturing positive and negative rhythmic cues by playing them forward and backward, respectively. Through subjective and objective evaluations of input-output correspondence in terms of dance-music beat alignment and the quality of generated music, experimental results on the AIST++ and TikTok dance video datasets demonstrate that our model outperforms SOTA dance-to-music generation models.
- Abstract(参考訳): コンディショニング入力と生成した出力の強いアライメントは、クロスアテンション機構を付加した時間条件付きU-Netをトレーニングすることで実現できる。
本稿では,ダンスビデオのリズミカル・ヴィジュアル・キューと同期した音楽生成の問題に焦点をあてる。
拡散モデルのトレーニングには双方向指導の方が有用であると考え,両拡散・逆過程を考案した条件として,正のリズム情報と負のリズム情報(PN-拡散)の両方を採用することで,生成した音楽の品質とダンスビデオとの同期性を高めることを提案する。
具体的には、連続的なマルチモーダルなU-Net構造を訓練するために、PN-Diffusionは、正の条件付けのためのノイズ予測目標と、負の条件付けのための追加のノイズ予測目標からなる。
正条件と負条件の両方を正確に定義し、選択するために、私たちはダンスビデオの時間的相関を巧みに利用し、それぞれ前向きと後向きに演奏することで正と負のリズムの手がかりを捉えた。
AIST++ と TikTok のダンスビデオデータセットにおける実験結果から,我々のモデルはSOTA のダンス・トゥ・ミュージック生成モデルより優れていることが示された。
関連論文リスト
- Efficient Fine-Grained Guidance for Diffusion-Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。
FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。
このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文 参考訳(メタデータ) (2024-10-11T00:41:46Z) - QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation [6.060426136203966]
四元数を考慮した視覚舞踊合成のための四元数拡張注意ネットワーク(QEAN)を提案する。
第一に、SPEは位置情報を回転的に自己注意に埋め込み、運動シーケンスと音声シーケンスの特徴をよりよく学習する。
第2に、QRAは一連の四元数という形で3Dモーション特徴とオーディオ特徴を表現・融合し、モデルが音楽とダンスの時間的調整をよりよく学習できるようにする。
論文 参考訳(メタデータ) (2024-03-18T09:58:43Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。
本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文 参考訳(メタデータ) (2023-06-15T03:49:24Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。