論文の概要: Reframing Music-Driven 2D Dance Pose Generation as Multi-Channel Image Generation
- arxiv url: http://arxiv.org/abs/2512.11720v1
- Date: Fri, 12 Dec 2025 16:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.849038
- Title: Reframing Music-Driven 2D Dance Pose Generation as Multi-Channel Image Generation
- Title(参考訳): マルチチャネル画像生成のための音楽駆動型2次元ダンスポーズ生成
- Authors: Yan Zhang, Han Zou, Lincong Feng, Cong Xie, Ruiqi Yu, Zhenpeng Zhan,
- Abstract要約: 最近のポーズ・トゥ・ビデオモデルは、2Dのポーズ・シーケンスをフォトリアリスティックでアイデンティティを保存するダンス・ビデオに変換することができる。
鍵となる課題は、音楽から時間的コヒーレントでリズムに沿った2Dポーズを生成することである。
そこで本稿では,音楽間距離生成をマルチチャンネル画像合成問題として再検討することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 11.649112409950304
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent pose-to-video models can translate 2D pose sequences into photorealistic, identity-preserving dance videos, so the key challenge is to generate temporally coherent, rhythm-aligned 2D poses from music, especially under complex, high-variance in-the-wild distributions. We address this by reframing music-to-dance generation as a music-token-conditioned multi-channel image synthesis problem: 2D pose sequences are encoded as one-hot images, compressed by a pretrained image VAE, and modeled with a DiT-style backbone, allowing us to inherit architectural and training advances from modern text-to-image models and better capture high-variance 2D pose distributions. On top of this formulation, we introduce (i) a time-shared temporal indexing scheme that explicitly synchronizes music tokens and pose latents over time and (ii) a reference-pose conditioning strategy that preserves subject-specific body proportions and on-screen scale while enabling long-horizon segment-and-stitch generation. Experiments on a large in-the-wild 2D dance corpus and the calibrated AIST++2D benchmark show consistent improvements over representative music-to-dance methods in pose- and video-space metrics and human preference, and ablations validate the contributions of the representation, temporal indexing, and reference conditioning. See supplementary videos at https://hot-dance.github.io
- Abstract(参考訳): 最近のポーズ・トゥ・ビデオモデルでは、2Dのポーズ・シーケンスをフォトリアリスティックでアイデンティティを保存するダンス・ビデオに変換することができる。
2Dポーズシーケンスは1ホット画像として符号化され、事前訓練された画像VAEで圧縮され、DTスタイルのバックボーンでモデル化され、現代のテキスト・イメージモデルからのアーキテクチャとトレーニングの進歩を継承し、高分散2Dポーズの分布をよりよく取得することができる。
この定式化の上に紹介する
(i)音楽トークンを明示的に同期させ、時間とともに潜伏者を装う時間的時間的索引付け方式
二 長期セグメント・スティッチ生成を可能とし、被写体比と画面上の規模を維持する基準条件付け戦略。
広帯域2Dダンスコーパスと校正されたAIST++2Dベンチマークの実験は、ポーズ空間とビデオ空間のメトリクスと人間の嗜好における代表的な音楽間距離法よりも一貫した改善を示し、その表現、時間的インデックス、参照条件の寄与を検証する。
補足ビデオはhttps://hot-dance.github.ioにある。
関連論文リスト
- DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling [70.79846001735547]
音楽から対話的な2人舞踊を生成するためのフレームワークであるDuetGenを提案する。
近年の運動合成の進歩に触発されて,我々は2段階の解法を提案する。
我々は、両方のダンサーの動きを統合された全体として表現し、必要な動きトークンを学習する。
論文 参考訳(メタデータ) (2025-06-23T14:22:50Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。
単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文 参考訳(メタデータ) (2025-02-24T18:47:54Z) - DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。
我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。
AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文 参考訳(メタデータ) (2024-05-15T11:33:07Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。