論文の概要: TokenDance: Token-to-Token Music-to-Dance Generation with Bidirectional Mamba
- arxiv url: http://arxiv.org/abs/2603.27314v1
- Date: Sat, 28 Mar 2026 15:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.89863
- Title: TokenDance: Token-to-Token Music-to-Dance Generation with Bidirectional Mamba
- Title(参考訳): TokenDance:双方向マンバを用いたToken-to-Token Music-to-Dance Generation
- Authors: Ziyue Yang, Kaixing Yang, Xulong Tang,
- Abstract要約: ミュージック・トゥ・ダンス・ジェネレーションは、仮想現実、ダンス教育、デジタルキャラクターアニメーションに広く応用されている。
TokenDanceは2段階の音楽・ダンス生成フレームワークで、二重モードのトークン化と効率的なトークンレベル生成によって、この制限を明示的に解決する。
TokenDanceは、生成品質と推論速度の両方でSOTA(State-of-the-art)のパフォーマンスを全般的に達成し、実世界の音楽/ダンスアプリケーションにおけるその効果と実用的価値を強調している。
- 参考スコア(独自算出の注目度): 5.119197329627647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music-to-dance generation has broad applications in virtual reality, dance education, and digital character animation. However, the limited coverage of existing 3D dance datasets confines current models to a narrow subset of music styles and choreographic patterns, resulting in poor generalization to real-world music. Consequently, generated dances often become overly simplistic and repetitive, substantially degrading expressiveness and realism. To tackle this problem, we present TokenDance, a two-stage music-to-dance generation framework that explicitly addresses this limitation through dual-modality tokenization and efficient token-level generation. In the first stage, we discretize both dance and music using Finite Scalar Quantization, where dance motions are factorized into upper and lower-body components with kinematic-dynamic constraints, and music is decomposed into semantic and acoustic features with dedicated codebooks to capture choreography-specific structures. In the second stage, we introduce a Local-Global-Local token-to-token generator built on a Bidirectional Mamba backbone, enabling coherent motion synthesis, strong music-dance alignment, and efficient non-autoregressive inference. Extensive experiments demonstrate that TokenDance achieves overall state-of-the-art (SOTA) performance in both generation quality and inference speed, highlighting its effectiveness and practical value for real-world music-to-dance applications.
- Abstract(参考訳): ミュージック・トゥ・ダンス・ジェネレーションは、仮想現実、ダンス教育、デジタルキャラクターアニメーションに広く応用されている。
しかし、既存の3Dダンスデータセットの限られた範囲は、現在のモデルを限られた音楽スタイルと振付パターンのサブセットに限定しており、現実の音楽への一般化は不十分である。
その結果、生成されたダンスは過度に単純で反復的になり、表現力とリアリズムを著しく低下させる。
この問題に対処するために,両モードのトークン化と効率的なトークンレベル生成を通じて,この制限に明示的に対処する2段階の音楽間距離生成フレームワークであるTokenDanceを提案する。
第1段階では、舞踊と音楽の区別を有限スカラー量子化(Finite Scalar Quantization)を用いて行う。そこでは、舞踊の動きを動力学的制約で上体と下体に分解し、音楽は、専用のコードブックで意味的・音響的特徴に分解して、振付固有の構造を捉える。
第2段階では、双方向マンバのバックボーン上に構築されたローカル・グローバル・ローカル・トークン・ツー・トークン・ツー・トークン・ジェネレータを導入し、コヒーレントな動き合成、強い音楽・ダンスアライメント、効率的な非自己回帰推論を可能にした。
広汎な実験により、TokenDanceは、生成品質と推論速度の両方において、全体的な最先端(SOTA)のパフォーマンスを達成し、実世界の音楽・ダンスアプリケーションにおけるその有効性と実践的価値を強調した。
関連論文リスト
- DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling [70.79846001735547]
音楽から対話的な2人舞踊を生成するためのフレームワークであるDuetGenを提案する。
近年の運動合成の進歩に触発されて,我々は2段階の解法を提案する。
我々は、両方のダンサーの動きを統合された全体として表現し、必要な動きトークンを学習する。
論文 参考訳(メタデータ) (2025-06-23T14:22:50Z) - Controllable Dance Generation with Style-Guided Motion Diffusion [49.35282418951445]
ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。
ほとんどのダンス生成法は音楽のみに依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。
本研究では,ダンス生成の多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。