論文の概要: GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment
- arxiv url: http://arxiv.org/abs/2510.26818v1
- Date: Tue, 28 Oct 2025 09:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.84737
- Title: GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment
- Title(参考訳): GACA-DiT:Genre-Adaptive Rhythmとコンテキスト認識アライメントを用いた拡散に基づくダンス・ツー・ミュージック生成
- Authors: Jinting Wang, Chenxing Li, Li Liu,
- Abstract要約: ダンス・トゥ・ミュージック・ジェネレーション(D2M)は、リズムと時間的にダンスの動きに合わせた音楽を自動的に合成することを目的としている。
リズム整合性と時間整合性を有する音楽生成のための2つの新しいモジュールを備えた拡散トランスフォーマーベースのフレームワークである textbfGACA-DiT を提案する。
AIST++とTikTokデータセットの実験では、GACA-DiTは客観的メトリクスと人的評価の両方で最先端の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 16.93446224499017
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dance-to-music (D2M) generation aims to automatically compose music that is rhythmically and temporally aligned with dance movements. Existing methods typically rely on coarse rhythm embeddings, such as global motion features or binarized joint-based rhythm values, which discard fine-grained motion cues and result in weak rhythmic alignment. Moreover, temporal mismatches introduced by feature downsampling further hinder precise synchronization between dance and music. To address these problems, we propose \textbf{GACA-DiT}, a diffusion transformer-based framework with two novel modules for rhythmically consistent and temporally aligned music generation. First, a \textbf{genre-adaptive rhythm extraction} module combines multi-scale temporal wavelet analysis and spatial phase histograms with adaptive joint weighting to capture fine-grained, genre-specific rhythm patterns. Second, a \textbf{context-aware temporal alignment} module resolves temporal mismatches using learnable context queries to align music latents with relevant dance rhythm features. Extensive experiments on the AIST++ and TikTok datasets demonstrate that GACA-DiT outperforms state-of-the-art methods in both objective metrics and human evaluation. Project page: https://beria-moon.github.io/GACA-DiT/.
- Abstract(参考訳): ダンス・トゥ・ミュージック・ジェネレーション(D2M)は、リズムと時間的にダンスの動きに合わせる音楽を自動的に合成することを目的としている。
既存の方法は、大域的な動きの特徴や二項化された関節ベースのリズム値のような粗いリズムの埋め込みに依存しており、細粒な動きの手がかりを排除し、結果として弱いリズムのアライメントをもたらす。
さらに、機能ダウンサンプリングによって導入された時間的ミスマッチは、ダンスと音楽の正確な同期をさらに妨げている。
これらの問題に対処するために,リズミカルに整合性を持ち,時間的に整合した音楽を生成するための2つの新しいモジュールを備えた拡散トランスフォーマーベースのフレームワークである \textbf{GACA-DiT} を提案する。
まず,マルチスケールの時相ウェーブレット解析と空間位相ヒストグラムを適応的な関節重み付けと組み合わせ,微粒でジャンル固有のリズムパターンを捉える。
第二に、‘textbf{context-aware temporal alignment} モジュールは、学習可能なコンテキストクエリを使って時間的ミスマッチを解決し、音楽の潜伏者を関連するダンスリズムの特徴と整合させる。
AIST++とTikTokデータセットの大規模な実験は、GACA-DiTが客観的メトリクスと人的評価の両方で最先端の手法より優れていることを示している。
プロジェクトページ:https://beria-moon.github.io/GACA-DiT/。
関連論文リスト
- Listen to Rhythm, Choose Movements: Autoregressive Multimodal Dance Generation via Diffusion and Mamba with Decoupled Dance Dataset [8.721362823189077]
Rhythm, Choose Movements (LRCM) は多様な入力モダリティと自己回帰ダンスモーション生成の両方をサポートする多モード誘導拡散フレームワークである。
受け入れ次第、完全なデータセットと事前トレーニングされたモデルを公開します。
論文 参考訳(メタデータ) (2026-01-06T14:59:22Z) - Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation [62.82943523102]
音楽から3Dのダンス生成は、リアルでリズミカルに同期された人間のダンスを音楽から合成することを目的としている。
本研究では,階層的なテンポ認識型Mixture-of-ExpertsモジュールであるTempoMoEを提案する。
本研究では,TempoMoEがダンスの質とリズムアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-12-21T16:57:08Z) - Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation [26.273309051211204]
Video-to-music (V2M) の生成は、視覚的コンテンツに合わせて音楽を作成することを目的としている。
階層的条件拡散モデルに基づく一般的なV2MフレームワークであるDiff-V2Mを提案する。
リズムモデリングでは、低分解能メル-スペクトログラム、テンポグラム、オンセット検出機能(ODF)など、いくつかのリズム表現を評価することから始める。
論文 参考訳(メタデータ) (2025-11-12T08:02:06Z) - DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling [70.79846001735547]
音楽から対話的な2人舞踊を生成するためのフレームワークであるDuetGenを提案する。
近年の運動合成の進歩に触発されて,我々は2段階の解法を提案する。
我々は、両方のダンサーの動きを統合された全体として表現し、必要な動きトークンを学習する。
論文 参考訳(メタデータ) (2025-06-23T14:22:50Z) - MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation [10.203209816178552]
MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-03T09:12:48Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。