Fugu-MT 論文翻訳(概要): InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization

論文の概要: InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization

arxiv url: http://arxiv.org/abs/2603.13375v1
Date: Tue, 10 Mar 2026 10:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.135956
Title: InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization
Title（参考訳）: InfiniteDance: 汎用化に向けたスケーラブルな3Dダンス生成
Authors: Ronghui Li, Zhongyuan Hu, Li Siyao, Youliang Zhang, Haozhe Xie, Mingyuan Zhang, Jie Guo, Xiu Li, Ziwei Liu,
Abstract要約: この研究は、データとモデル設計の両方をスケールアップすることで、一般化可能な3Dダンス生成のフロンティアを推し進めることを目的としている。モノクロ映像から高忠実度3Dダンスモーションを再構成する完全自動パイプラインを開発した。既設の再建工法では, 足の接触や幾何学的制約によって誘導される足の復元拡散モデル(FRDM)を導入する。未知の音楽条件下でのロバスト性を高めるため,レファレンスとしてレファレンスダンスを注入する検索拡張生成モジュール(RAG)を統合する。
参考スコア（独自算出の注目度）: 54.47757841373109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although existing 3D dance generation methods perform well in controlled scenarios, they often struggle to generalize in the wild. When conditioned on unseen music, existing methods often produce unstructured or physically implausible dance, largely due to limited music-to-dance data and restricted model capacity. This work aims to push the frontier of generalizable 3D dance generation by scaling up both data and model design. (1) On the data side, we develop a fully automated pipeline that reconstructs high-fidelity 3D dance motions from monocular videos. To eliminate the physical artifacts prevalent in existing reconstruction methods, we introduce a Foot Restoration Diffusion Model (FRDM) guided by foot-contact and geometric constraints that enforce physical plausibility while preserving kinematic smoothness and expressiveness, resulting in a diverse, high-quality multimodal 3D dance dataset totaling 100.69 hours. (2) On model design, we propose Choreographic LLaMA (ChoreoLLaMA), a scalable LLaMA-based architecture. To enhance robustness under unfamiliar music conditions, we integrate a retrieval-augmented generation (RAG) module that injects reference dance as a prompt. Additionally, we design a slow/fast-cadence Mixture-of-Experts (MoE) module that enables ChoreoLLaMA to smoothly adapt motion rhythms across varying music tempos. Extensive experiments across diverse dance genres show that our approach surpasses existing methods in both qualitative and quantitative evaluations, marking a step toward scalable, real-world 3D dance generation. Code, models, and data will be released.
Abstract（参考訳）: 既存の3Dダンス生成手法は制御されたシナリオではうまく機能するが、野生では一般化に苦慮することが多い。目に見えない音楽に条件付けされた場合、既存の方法では、音楽とダンスの限られたデータとモデル容量の制限により、構造的にも身体的にも不明瞭なダンスがしばしば発生する。この研究は、データとモデル設計の両方をスケールアップすることで、一般化可能な3Dダンス生成のフロンティアを推し進めることを目的としている。 1)データ側では,モノクロ映像から高忠実度3Dダンス動作を再構成する完全自動パイプラインを開発する。既設の再建法で一般的な身体的遺物を排除するため,足の接触や幾何学的制約を伴い,運動の滑らかさと表現性を保ちながら身体的可塑性を強制するフット復元拡散モデル(FRDM)を導入し,100.69時間に及ぶ多モード3Dダンスデータセットを多種多様な高品質化する。 2)モデル設計では,スケーラブルなLLaMAアーキテクチャであるChoreographic LLaMA(ChoreoLLaMA)を提案する。未知の音楽条件下でのロバスト性を高めるため,レファレンスとしてレファレンスダンスを注入する検索拡張生成モジュール(RAG)を統合する。さらに,ChoreoLLaMAが様々な音楽テンポにまたがる動作リズムを円滑に適応することのできるMoEモジュールを設計した。多様なダンスジャンルにわたる大規模な実験により、我々のアプローチは質的・定量的評価において既存の手法を超越し、スケーラブルで現実世界の3Dダンス生成への一歩を踏み出した。コード、モデル、データはリリースされます。

論文の概要: InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization

関連論文リスト