論文の概要: InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization
- arxiv url: http://arxiv.org/abs/2603.13375v1
- Date: Tue, 10 Mar 2026 10:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.135956
- Title: InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization
- Title(参考訳): InfiniteDance: 汎用化に向けたスケーラブルな3Dダンス生成
- Authors: Ronghui Li, Zhongyuan Hu, Li Siyao, Youliang Zhang, Haozhe Xie, Mingyuan Zhang, Jie Guo, Xiu Li, Ziwei Liu,
- Abstract要約: この研究は、データとモデル設計の両方をスケールアップすることで、一般化可能な3Dダンス生成のフロンティアを推し進めることを目的としている。
モノクロ映像から高忠実度3Dダンスモーションを再構成する完全自動パイプラインを開発した。
既設の再建工法では, 足の接触や幾何学的制約によって誘導される足の復元拡散モデル(FRDM)を導入する。
未知の音楽条件下でのロバスト性を高めるため,レファレンスとしてレファレンスダンスを注入する検索拡張生成モジュール(RAG)を統合する。
- 参考スコア(独自算出の注目度): 54.47757841373109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing 3D dance generation methods perform well in controlled scenarios, they often struggle to generalize in the wild. When conditioned on unseen music, existing methods often produce unstructured or physically implausible dance, largely due to limited music-to-dance data and restricted model capacity. This work aims to push the frontier of generalizable 3D dance generation by scaling up both data and model design. (1) On the data side, we develop a fully automated pipeline that reconstructs high-fidelity 3D dance motions from monocular videos. To eliminate the physical artifacts prevalent in existing reconstruction methods, we introduce a Foot Restoration Diffusion Model (FRDM) guided by foot-contact and geometric constraints that enforce physical plausibility while preserving kinematic smoothness and expressiveness, resulting in a diverse, high-quality multimodal 3D dance dataset totaling 100.69 hours. (2) On model design, we propose Choreographic LLaMA (ChoreoLLaMA), a scalable LLaMA-based architecture. To enhance robustness under unfamiliar music conditions, we integrate a retrieval-augmented generation (RAG) module that injects reference dance as a prompt. Additionally, we design a slow/fast-cadence Mixture-of-Experts (MoE) module that enables ChoreoLLaMA to smoothly adapt motion rhythms across varying music tempos. Extensive experiments across diverse dance genres show that our approach surpasses existing methods in both qualitative and quantitative evaluations, marking a step toward scalable, real-world 3D dance generation. Code, models, and data will be released.
- Abstract(参考訳): 既存の3Dダンス生成手法は制御されたシナリオではうまく機能するが、野生では一般化に苦慮することが多い。
目に見えない音楽に条件付けされた場合、既存の方法では、音楽とダンスの限られたデータとモデル容量の制限により、構造的にも身体的にも不明瞭なダンスがしばしば発生する。
この研究は、データとモデル設計の両方をスケールアップすることで、一般化可能な3Dダンス生成のフロンティアを推し進めることを目的としている。
1)データ側では,モノクロ映像から高忠実度3Dダンス動作を再構成する完全自動パイプラインを開発する。
既設の再建法で一般的な身体的遺物を排除するため,足の接触や幾何学的制約を伴い,運動の滑らかさと表現性を保ちながら身体的可塑性を強制するフット復元拡散モデル(FRDM)を導入し,100.69時間に及ぶ多モード3Dダンスデータセットを多種多様な高品質化する。
2)モデル設計では,スケーラブルなLLaMAアーキテクチャであるChoreographic LLaMA(ChoreoLLaMA)を提案する。
未知の音楽条件下でのロバスト性を高めるため,レファレンスとしてレファレンスダンスを注入する検索拡張生成モジュール(RAG)を統合する。
さらに,ChoreoLLaMAが様々な音楽テンポにまたがる動作リズムを円滑に適応することのできるMoEモジュールを設計した。
多様なダンスジャンルにわたる大規模な実験により、我々のアプローチは質的・定量的評価において既存の手法を超越し、スケーラブルで現実世界の3Dダンス生成への一歩を踏み出した。
コード、モデル、データはリリースされます。
関連論文リスト
- Listen to Rhythm, Choose Movements: Autoregressive Multimodal Dance Generation via Diffusion and Mamba with Decoupled Dance Dataset [8.721362823189077]
Rhythm, Choose Movements (LRCM) は多様な入力モダリティと自己回帰ダンスモーション生成の両方をサポートする多モード誘導拡散フレームワークである。
受け入れ次第、完全なデータセットと事前トレーニングされたモデルを公開します。
論文 参考訳(メタデータ) (2026-01-06T14:59:22Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - FlowerDance: MeanFlow for Efficient and Refined 3D Dance Generation [9.587067781689331]
音楽からダンスへの生成は、聴覚信号を人間の表情に翻訳することを目的としており、仮想現実、振付、デジタルエンターテイメントに広く応用されている。
本稿では,身体的可視性と芸術的表現性を持った洗練された動きを生成できるだけでなく,推論速度やメモリ利用において,優れた生成効率を実現するフラワーダンスを提案する。
論文 参考訳(メタデータ) (2025-11-26T03:53:10Z) - PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation [51.2555550979386]
Plausibility-Aware Motion Diffusion (PAMD)は、音楽的に整列し、物理的に現実的なダンスを生成するためのフレームワークである。
生成時により効果的なガイダンスを提供するために、プリエント・モーション・ガイダンス(PMG)を取り入れる。
実験により、PAMDは音楽のアライメントを著しく改善し、生成した動きの物理的妥当性を高めることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:44:09Z) - LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model [3.036230795326545]
LongDanceDiffは、シーケンス・ツー・シーケンスの長期ダンス生成のための条件付き拡散モデルである。
時間的一貫性と空間的制約の課題に対処する。
また,フットスライディングやアンスムース動作など,ダンス生成における視覚的品質の問題にも対処する。
論文 参考訳(メタデータ) (2023-08-23T06:37:41Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance
Generation [33.9261932800456]
ファインダンス(FineDance)は、ダンスのジャンルで最大の音楽とダンスのペアデータセットである。
従来手法に存在した単調・不自然な手の動きに対処するため,フルボディダンス生成ネットワークを提案する。
生成したダンスのジャンルマッチングと長期的安定性をさらに向上するため,Genre&Coherent aware Retrieval Moduleを提案する。
論文 参考訳(メタデータ) (2022-12-07T16:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。