論文の概要: Listen to Rhythm, Choose Movements: Autoregressive Multimodal Dance Generation via Diffusion and Mamba with Decoupled Dance Dataset
- arxiv url: http://arxiv.org/abs/2601.03323v1
- Date: Tue, 06 Jan 2026 14:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.054261
- Title: Listen to Rhythm, Choose Movements: Autoregressive Multimodal Dance Generation via Diffusion and Mamba with Decoupled Dance Dataset
- Title(参考訳): リズムに耳を傾け, 選択運動: 拡散による自己回帰的マルチモーダルダンス生成とデカップダンスデータセットを用いたマンバ
- Authors: Oran Duan, Yinghua Shen, Yingzhu Lv, Luyang Jie, Yaxin Liu, Qiong Wu,
- Abstract要約: Rhythm, Choose Movements (LRCM) は多様な入力モダリティと自己回帰ダンスモーション生成の両方をサポートする多モード誘導拡散フレームワークである。
受け入れ次第、完全なデータセットと事前トレーニングされたモデルを公開します。
- 参考スコア(独自算出の注目度): 8.721362823189077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in generative models and sequence learning have greatly promoted research in dance motion generation, yet current methods still suffer from coarse semantic control and poor coherence in long sequences. In this work, we present Listen to Rhythm, Choose Movements (LRCM), a multimodal-guided diffusion framework supporting both diverse input modalities and autoregressive dance motion generation. We explore a feature decoupling paradigm for dance datasets and generalize it to the Motorica Dance dataset, separating motion capture data, audio rhythm, and professionally annotated global and local text descriptions. Our diffusion architecture integrates an audio-latent Conformer and a text-latent Cross-Conformer, and incorporates a Motion Temporal Mamba Module (MTMM) to enable smooth, long-duration autoregressive synthesis. Experimental results indicate that LRCM delivers strong performance in both functional capability and quantitative metrics, demonstrating notable potential in multimodal input scenarios and extended sequence generation. We will release the full codebase, dataset, and pretrained models publicly upon acceptance.
- Abstract(参考訳): 生成モデルとシーケンス学習の進歩はダンス・モーション・ジェネレーションの研究を大いに促進してきたが、現在の手法は長いシーケンスにおける粗いセマンティック・コントロールと粗いコヒーレンスに悩まされている。
本稿では,多様な入力モードと自己回帰ダンスモーション生成の両方をサポートする多モーダル誘導拡散フレームワークであるLRCM(Listen to Rhythm, Choose Movements)を提案する。
我々は、ダンスデータセットの特徴分離パラダイムを探求し、それをMotorica Danceデータセットに一般化し、モーションキャプチャーデータ、オーディオリズム、プロの注釈付きグローバルテキスト記述とローカルテキスト記述を分離する。
拡散アーキテクチャは,音声遅延コンバータとテキスト遅延クロスコンバータを統合し,MTMM(Motion Temporal Mamba Module)を組み込んで,スムーズで長期の自己回帰合成を実現する。
実験結果から,LRCMは機能的能力と量的指標の両方において高い性能を示し,マルチモーダル入力シナリオや拡張シーケンス生成に顕著な可能性を示している。
受け入れ次第、コードベース、データセット、事前訓練済みのモデルを公開します。
関連論文リスト
- Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation [62.82943523102]
音楽から3Dのダンス生成は、リアルでリズミカルに同期された人間のダンスを音楽から合成することを目的としている。
本研究では,階層的なテンポ認識型Mixture-of-ExpertsモジュールであるTempoMoEを提案する。
本研究では,TempoMoEがダンスの質とリズムアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-12-21T16:57:08Z) - GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment [16.93446224499017]
ダンス・トゥ・ミュージック・ジェネレーション(D2M)は、リズムと時間的にダンスの動きに合わせた音楽を自動的に合成することを目的としている。
リズム整合性と時間整合性を有する音楽生成のための2つの新しいモジュールを備えた拡散トランスフォーマーベースのフレームワークである textbfGACA-DiT を提案する。
AIST++とTikTokデータセットの実験では、GACA-DiTは客観的メトリクスと人的評価の両方で最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-28T09:26:59Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - JointDiff: Bridging Continuous and Discrete in Multi-Agent Trajectory Generation [75.58351043849385]
生成モデルは、しばしば連続したデータと離散的なイベントを別々のプロセスとして扱う。
このギャップを埋めるために、連続時間データと同期離散イベントを同時に生成してこれらの2つのプロセス間の相互作用を設計した新しい拡散フレームワークであるJointDiffを導入する。
JointDiffは最先端のパフォーマンスを実現し、インタラクティブシステムのための現実的で制御可能なモデルを構築するために、ジョイントモデリングが不可欠であることを実証している。
論文 参考訳(メタデータ) (2025-09-26T16:04:00Z) - MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation [10.203209816178552]
MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-03T09:12:48Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization [8.605691647343065]
既存の手法では,ジェスチャ生成にベクトル量子化トークンを伴って自己回帰モデルを用いるのが一般的である。
我々は、離散トークン化に頼ることなく、高品質で多様な音声合成のための新しいマルチモーダルアライメントフレームワークMAGを提案する。
論文 参考訳(メタデータ) (2025-03-18T09:02:02Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。