論文の概要: PF-D2M: A Pose-free Diffusion Model for Universal Dance-to-Music Generation
- arxiv url: http://arxiv.org/abs/2601.15872v1
- Date: Thu, 22 Jan 2026 11:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.585633
- Title: PF-D2M: A Pose-free Diffusion Model for Universal Dance-to-Music Generation
- Title(参考訳): PF-D2M:Universal Dance-to-Music 生成のためのpose-free Diffusion Model
- Authors: Jaekwon Im, Natalia Polouliakh, Taketo Akama,
- Abstract要約: PF-D2Mは、ダンスビデオから抽出された視覚的特徴を取り入れた、普遍的な拡散に基づくダンス・ツー・ミュージック生成モデルである。
PF-D2Mは、ダンス音楽のアライメントと音楽の質において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.621690152957197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dance-to-music generation aims to generate music that is aligned with dance movements. Existing approaches typically rely on body motion features extracted from a single human dancer and limited dance-to-music datasets, which restrict their performance and applicability to real-world scenarios involving multiple dancers and non-human dancers. In this paper, we propose PF-D2M, a universal diffusion-based dance-to-music generation model that incorporates visual features extracted from dance videos. PF-D2M is trained with a progressive training strategy that effectively addresses data scarcity and generalization challenges. Both objective and subjective evaluations show that PF-D2M achieves state-of-the-art performance in dance-music alignment and music quality.
- Abstract(参考訳): ダンス・トゥ・ミュージック・ジェネレーションは、ダンスの動きに合わせて音楽を生成することを目的としている。
既存のアプローチは、通常、1人のダンサーと限られたダンスから音楽までのデータセットから抽出された身体の動きの特徴に依存しており、複数のダンサーと非人間のダンサーを含む現実のシナリオにそのパフォーマンスと適用性を制限する。
本稿では,ダンスビデオから抽出した視覚的特徴を取り入れた,普遍的な拡散に基づくダンス・ツー・ミュージック生成モデルであるPF-D2Mを提案する。
PF-D2Mはデータ不足と一般化の課題に効果的に対処するプログレッシブトレーニング戦略で訓練されている。
PF-D2Mはダンス・音楽のアライメントと音楽の質において最先端の演奏を達成できることが客観的および主観的評価の両方で示される。
関連論文リスト
- PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation [51.2555550979386]
Plausibility-Aware Motion Diffusion (PAMD)は、音楽的に整列し、物理的に現実的なダンスを生成するためのフレームワークである。
生成時により効果的なガイダンスを提供するために、プリエント・モーション・ガイダンス(PMG)を取り入れる。
実験により、PAMDは音楽のアライメントを著しく改善し、生成した動きの物理的妥当性を高めることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:44:09Z) - Controllable Dance Generation with Style-Guided Motion Diffusion [49.35282418951445]
ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。
ほとんどのダンス生成法は音楽のみに依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。
本研究では,ダンス生成の多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - LM2D: Lyrics- and Music-Driven Dance Synthesis [28.884929875333846]
LM2Dは、音楽と歌詞の両方で、ひとつの拡散生成ステップでダンスコンディションを作成するように設計されている。
ポーズ推定技術を用いて,音楽と歌詞の両方を包含する最初の3次元ダンスモーションデータセットを提案する。
その結果、LM2Dは歌詞と音楽の両方にマッチするリアルで多様なダンスを制作できることを示した。
論文 参考訳(メタデータ) (2024-03-14T13:59:04Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。