論文の概要: MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation
- arxiv url: http://arxiv.org/abs/2506.02661v1
- Date: Tue, 03 Jun 2025 09:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.407733
- Title: MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation
- Title(参考訳): MotionRAG-Diff:長期音楽対ダンス生成のための検索拡張拡散フレームワーク
- Authors: Mingyang Huang, Peng Zhang, Bang Zhang,
- Abstract要約: MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.203209816178552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long-term, coherent, and realistic music-conditioned dance sequences remains a challenging task in human motion synthesis. Existing approaches exhibit critical limitations: motion graph methods rely on fixed template libraries, restricting creative generation; diffusion models, while capable of producing novel motions, often lack temporal coherence and musical alignment. To address these challenges, we propose $\textbf{MotionRAG-Diff}$, a hybrid framework that integrates Retrieval-Augmented Generation (RAG) with diffusion-based refinement to enable high-quality, musically coherent dance generation for arbitrary long-term music inputs. Our method introduces three core innovations: (1) A cross-modal contrastive learning architecture that aligns heterogeneous music and dance representations in a shared latent space, establishing unsupervised semantic correspondence without paired data; (2) An optimized motion graph system for efficient retrieval and seamless concatenation of motion segments, ensuring realism and temporal coherence across long sequences; (3) A multi-condition diffusion model that jointly conditions on raw music signals and contrastive features to enhance motion quality and global synchronization. Extensive experiments demonstrate that MotionRAG-Diff achieves state-of-the-art performance in motion quality, diversity, and music-motion synchronization accuracy. This work establishes a new paradigm for music-driven dance generation by synergizing retrieval-based template fidelity with diffusion-based creative enhancement.
- Abstract(参考訳): 長期的なコヒーレントでリアルな音楽条件のダンスシーケンスを生成することは、人間の動き合成において難しい課題である。
モーショングラフ法は固定されたテンプレートライブラリに依存し、創造的な生成を制限する。
これらの課題に対処するため, 任意の長期音楽入力に対して高品質で音楽的に整合性のあるダンス生成を可能にするために, Retrieval-Augmented Generation (RAG) と拡散改善を統合したハイブリッドフレームワークである $\textbf{MotionRAG-Diff}$ を提案する。
提案手法では,(1)異種音楽と舞踊表現を共有潜在空間内に整合させ,ペア付きデータのない教師なし意味的対応を確立するクロスモーダル・コントラスト学習アーキテクチャ,(2)動作セグメントの効率的な検索とシームレスな結合,長いシーケンス間のリアリズムと時間的コヒーレンスを保証するための最適化されたモーショングラフシステム,(3)生音楽信号とコントラスト的特徴を併用して動き品質とグローバル同期性を向上させるマルチコンディション拡散モデルを提案する。
広汎な実験により、MotionRAG-Diffは、動作品質、多様性、音楽-モーション同期の精度において最先端のパフォーマンスを達成することが示された。
本研究は,検索に基づくテンプレートの忠実度と拡散に基づく創造的エンハンスメントを相乗化することにより,音楽によるダンス生成の新しいパラダイムを確立する。
関連論文リスト
- PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation [51.2555550979386]
Plausibility-Aware Motion Diffusion (PAMD)は、音楽的に整列し、物理的に現実的なダンスを生成するためのフレームワークである。
生成時により効果的なガイダンスを提供するために、プリエント・モーション・ガイダンス(PMG)を取り入れる。
実験により、PAMDは音楽のアライメントを著しく改善し、生成した動きの物理的妥当性を高めることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:44:09Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - ReactDance: Progressive-Granular Representation for Long-Term Coherent Reactive Dance Generation [2.1920014462753064]
レスポンシブ・ダンス・ジェネレーション (RDG) は、ダンサーと音楽の誘導を前提とした従者の動きを生成する。
長期間のコヒーレンスとマルチスケール制御性を備えた高忠実度RDGのための新しい拡散型フレームワークであるReactDanceを提案する。
論文 参考訳(メタデータ) (2025-05-08T18:42:38Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - InterDance:Reactive 3D Dance Generation with Realistic Duet Interactions [67.37790144477503]
動きの質、データスケール、さまざまなダンスジャンルを大幅に向上させる大規模なデュエットダンスデータセットであるInterDanceを提案する。
本稿では,対話のリアリズムを段階的に最適化するためのインタラクション改善指導戦略を備えた拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-22T11:53:51Z) - LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model [3.036230795326545]
LongDanceDiffは、シーケンス・ツー・シーケンスの長期ダンス生成のための条件付き拡散モデルである。
時間的一貫性と空間的制約の課題に対処する。
また,フットスライディングやアンスムース動作など,ダンス生成における視覚的品質の問題にも対処する。
論文 参考訳(メタデータ) (2023-08-23T06:37:41Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。
本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文 参考訳(メタデータ) (2023-06-15T03:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。