論文の概要: DanceChat: Large Language Model-Guided Music-to-Dance Generation
- arxiv url: http://arxiv.org/abs/2506.10574v1
- Date: Thu, 12 Jun 2025 11:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.694109
- Title: DanceChat: Large Language Model-Guided Music-to-Dance Generation
- Title(参考訳): DanceChat: 大規模言語モデルによる音楽対ダンス生成
- Authors: Qing Wang, Xiaohang Yang, Yilan Dong, Naveen Raj Govindaraj, Gregory Slabaugh, Shanxin Yuan,
- Abstract要約: 音楽からダンスへの生成は、音楽入力に基づく人間のダンスの動きを合成することを目的としている。
本研究では,Large Language Model (LLM) を用いた音楽間距離生成手法であるDanceChatを紹介する。
- 参考スコア(独自算出の注目度): 8.455652926559427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music-to-dance generation aims to synthesize human dance motion conditioned on musical input. Despite recent progress, significant challenges remain due to the semantic gap between music and dance motion, as music offers only abstract cues, such as melody, groove, and emotion, without explicitly specifying the physical movements. Moreover, a single piece of music can produce multiple plausible dance interpretations. This one-to-many mapping demands additional guidance, as music alone provides limited information for generating diverse dance movements. The challenge is further amplified by the scarcity of paired music and dance data, which restricts the model\^a\u{A}\'Zs ability to learn diverse dance patterns. In this paper, we introduce DanceChat, a Large Language Model (LLM)-guided music-to-dance generation approach. We use an LLM as a choreographer that provides textual motion instructions, offering explicit, high-level guidance for dance generation. This approach goes beyond implicit learning from music alone, enabling the model to generate dance that is both more diverse and better aligned with musical styles. Our approach consists of three components: (1) an LLM-based pseudo instruction generation module that produces textual dance guidance based on music style and structure, (2) a multi-modal feature extraction and fusion module that integrates music, rhythm, and textual guidance into a shared representation, and (3) a diffusion-based motion synthesis module together with a multi-modal alignment loss, which ensures that the generated dance is aligned with both musical and textual cues. Extensive experiments on AIST++ and human evaluations show that DanceChat outperforms state-of-the-art methods both qualitatively and quantitatively.
- Abstract(参考訳): 音楽からダンスへの生成は、音楽入力に基づく人間のダンスの動きを合成することを目的としている。
近年の進歩にもかかわらず、音楽はメロディ、溝、感情などの抽象的な手がかりしか提供していないため、音楽とダンスの動きのセマンティックなギャップが原因で重要な課題が残っている。
さらに、1曲の楽曲は複数のもっともらしいダンスの解釈を生成することができる。
この1対多のマッピングは、音楽だけで多様なダンスの動きを生成するための限られた情報を提供するため、追加のガイダンスを必要とする。
この課題は、ペア音楽とダンスデータの不足によってさらに増幅され、多様なダンスパターンを学習するモデル\^a\u{A}\'Zの能力を制限する。
本稿では,Large Language Model (LLM) を用いた音楽間距離生成手法であるDanceChatを紹介する。
我々はLLMをコレオグラフィーとして使用し、テキストによる動作指示を提供し、ダンス生成のための明示的でハイレベルなガイダンスを提供する。
このアプローチは、音楽のみからの暗黙の学習を超えて、より多様性があり、音楽スタイルに整合したダンスをモデルが生成できるようにする。
提案手法は,(1)音楽スタイルと構造に基づくテキストダンス指導を生成するLLMベースの擬似命令生成モジュール,(2)音楽,リズム,テキストガイダンスを共有表現に統合するマルチモーダル特徴抽出・融合モジュール,(3)多モーダルアライメント損失を伴う拡散ベースのモーション合成モジュール,の3つの構成からなる。
AIST++と人間の評価に関する大規模な実験により、DanceChatは定性的にも量的にも最先端の手法より優れていることが示された。
関連論文リスト
- Flexible Music-Conditioned Dance Generation with Style Description Prompts [41.04549275897979]
本稿では,ダンス生成の多種多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
このフレームワークの中核となるコンポーネントはMusic-Conditioned Style-Aware Diffusion (MCSAD)であり、TransformerベースのネットワークとMusic Style Modulationモジュールで構成される。
提案手法は, 長期的生成, ダンス・イン・ベントワイニング, ダンス・イン・ペイントなど, 様々なタスクにおいて, 音楽と正確に整合したリアルなダンス・シーケンスを生成する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - LM2D: Lyrics- and Music-Driven Dance Synthesis [28.884929875333846]
LM2Dは、音楽と歌詞の両方で、ひとつの拡散生成ステップでダンスコンディションを作成するように設計されている。
ポーズ推定技術を用いて,音楽と歌詞の両方を包含する最初の3次元ダンスモーションデータセットを提案する。
その結果、LM2Dは歌詞と音楽の両方にマッチするリアルで多様なダンスを制作できることを示した。
論文 参考訳(メタデータ) (2024-03-14T13:59:04Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - DanceIt: Music-inspired Dancing Video Synthesis [38.87762996956861]
本稿では,コンピュータビジョンシステム内での人間関係のこのような能力の再現を提案する。
提案システムは3つのモジュールから構成される。
生成されたダンスビデオは、音楽の内容とリズムにマッチします。
論文 参考訳(メタデータ) (2020-09-17T02:29:13Z) - Music2Dance: DanceNet for Music-driven Dance Generation [11.73506542921528]
本研究では,音楽のスタイル,リズム,メロディを制御信号とする自己回帰生成モデルDanceNetを提案する。
プロのダンサーによる複数の同期音楽ダンスペアをキャプチャし、高品質な音楽ダンスペアデータセットを構築する。
論文 参考訳(メタデータ) (2020-02-02T17:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。