論文の概要: DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions
- arxiv url: http://arxiv.org/abs/2508.17342v1
- Date: Sun, 24 Aug 2025 12:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.47946
- Title: DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions
- Title(参考訳): DanceEditor: オープン語彙記述による反復編集可能な音楽駆動ダンス生成を目指す
- Authors: Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han,
- Abstract要約: 本稿では,音楽信号に一致した反復的で編集可能なダンス生成のための新しいフレームワークを提案する。
本フレームワークは,マルチモーダル条件を統一する予測編集パラダイムに基づいて構築されている。
提案手法は,新たに収集したDanceRemixデータセットの最先端モデルよりも優れている。
- 参考スコア(独自算出の注目度): 22.816939666772303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating coherent and diverse human dances from music signals has gained tremendous progress in animating virtual avatars. While existing methods support direct dance synthesis, they fail to recognize that enabling users to edit dance movements is far more practical in real-world choreography scenarios. Moreover, the lack of high-quality dance datasets incorporating iterative editing also limits addressing this challenge. To achieve this goal, we first construct DanceRemix, a large-scale multi-turn editable dance dataset comprising the prompt featuring over 25.3M dance frames and 84.5K pairs. In addition, we propose a novel framework for iterative and editable dance generation coherently aligned with given music signals, namely DanceEditor. Considering the dance motion should be both musical rhythmic and enable iterative editing by user descriptions, our framework is built upon a prediction-then-editing paradigm unifying multi-modal conditions. At the initial prediction stage, our framework improves the authority of generated results by directly modeling dance movements from tailored, aligned music. Moreover, at the subsequent iterative editing stages, we incorporate text descriptions as conditioning information to draw the editable results through a specifically designed Cross-modality Editing Module (CEM). Specifically, CEM adaptively integrates the initial prediction with music and text prompts as temporal motion cues to guide the synthesized sequences. Thereby, the results display music harmonics while preserving fine-grained semantic alignment with text descriptions. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on our newly collected DanceRemix dataset. Code is available at https://lzvsdy.github.io/DanceEditor/.
- Abstract(参考訳): 音楽信号からコヒーレントで多様な人間のダンスを生成することは、仮想アバターのアニメーション化において大きな進歩を遂げている。
既存の手法は直接ダンス合成をサポートしているが、実際のコレオグラフィーのシナリオでは、ユーザがダンスの動きを編集できることは、はるかに実用的であると認識できない。
さらに、反復編集を取り入れた高品質なダンスデータセットが欠如しているため、この課題にも対処できない。
この目的を達成するために、我々はまず25.3M以上のダンスフレームと84.5Kのペアからなる大規模なマルチターン編集可能なダンスデータセットであるDanceRemixを構築した。
さらに,音楽信号,すなわちDanceEditorに一致した反復的かつ編集可能なダンス生成のための新しいフレームワークを提案する。
ダンスの動きは音楽のリズミカルであり、ユーザ記述による反復的な編集を可能にすることを考えると、このフレームワークはマルチモーダル条件を統一する予測編集パラダイムに基づいて構築されている。
最初の予測段階では,このフレームワークは,調整されたアライメントされた音楽からダンスの動きを直接モデル化することにより,生成結果の権威を向上させる。
さらに、その後の反復的な編集段階において、テキスト記述を条件付け情報として組み込んで、特別に設計されたクロスモダリティ編集モジュール(CEM)を通して編集可能な結果を描画する。
具体的には、CEMは、初期予測を音楽と適応的に統合し、テキストプロンプトを時間的動きの手がかりとして合成シーケンスを誘導する。
これにより、テキスト記述と微妙なセマンティックアライメントを保持しながら、音楽ハーモニクスを表示する。
大規模な実験により,本手法は新たに収集したDanceRemixデータセットの最先端モデルよりも優れていることが示された。
コードはhttps://lzvsdy.github.io/DanceEditor/で入手できる。
関連論文リスト
- X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。
単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文 参考訳(メタデータ) (2025-02-24T18:47:54Z) - DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。
本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文 参考訳(メタデータ) (2024-09-23T11:20:44Z) - Controllable Dance Generation with Style-Guided Motion Diffusion [49.35282418951445]
ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。
ほとんどのダンス生成法は音楽のみに依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。
本研究では,ダンス生成の多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。