論文の概要: Spatial-Temporal Graph Mamba for Music-Guided Dance Video Synthesis
- arxiv url: http://arxiv.org/abs/2507.06689v1
- Date: Wed, 09 Jul 2025 09:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.540694
- Title: Spatial-Temporal Graph Mamba for Music-Guided Dance Video Synthesis
- Title(参考訳): 音楽誘導ダンスビデオ合成のための空間時間グラフマンバ
- Authors: Hao Tang, Ling Shao, Zhenyu Zhang, Luc Van Gool, Nicu Sebe,
- Abstract要約: 音楽誘導ダンスビデオ合成作業のための空間時間グラフMamba(STG-Mamba)を提案する。
音楽からスケルトンへの翻訳では、入力された音楽からスケルトン配列を効率的に構築する新しい時空間グラフMambaブロックを導入する。
そこで本研究では,スケルトンからビデオへの翻訳のために,生成した骨格を条件付き画像とともにダンスビデオに翻訳する,自己教師付き正規化ネットワークを提案する。
- 参考スコア(独自算出の注目度): 135.42377374612008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel spatial-temporal graph Mamba (STG-Mamba) for the music-guided dance video synthesis task, i.e., to translate the input music to a dance video. STG-Mamba consists of two translation mappings: music-to-skeleton translation and skeleton-to-video translation. In the music-to-skeleton translation, we introduce a novel spatial-temporal graph Mamba (STGM) block to effectively construct skeleton sequences from the input music, capturing dependencies between joints in both the spatial and temporal dimensions. For the skeleton-to-video translation, we propose a novel self-supervised regularization network to translate the generated skeletons, along with a conditional image, into a dance video. Lastly, we collect a new skeleton-to-video translation dataset from the Internet, containing 54,944 video clips. Extensive experiments demonstrate that STG-Mamba achieves significantly better results than existing methods.
- Abstract(参考訳): 本稿では,音楽誘導ダンスビデオ合成タスク,すなわち入力音楽をダンスビデオに変換するための新しい時空間グラフMamba(STG-Mamba)を提案する。
STG-Mambaは、音楽からスケルトンへの翻訳とスケルトンからビデオへの翻訳の2つのマッピングで構成されている。
音楽からスケルトンへの翻訳では,入力音楽からスケルトン配列を効率的に構築する新しい時空間グラフMamba (STGM) ブロックを導入し,空間次元と時間次元の両方の関節間の依存関係をキャプチャする。
そこで本研究では,スケルトンからビデオへの翻訳のために,生成した骨格を条件付き画像とともにダンスビデオに翻訳する,自己教師付き正規化ネットワークを提案する。
最後に、54,944本のビデオクリップを含む新しいスケルトン間翻訳データセットをインターネットから収集する。
大規模な実験により、STG-Mambaは既存の方法よりもはるかに優れた結果が得られることが示された。
関連論文リスト
- Every Image Listens, Every Image Dances: Music-Driven Image Animation [8.085267959520843]
MuseDanceは、音楽とテキストの両方の入力を使って画像を参照するエンド・ツー・エンドのモデルである。
既存のアプローチとは異なり、MuseDanceはポーズや深さシーケンスのような複雑なモーションガイダンス入力を必要としない。
本稿では,2,904本のダンスビデオと,それに対応する背景音楽とテキスト記述を含むマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2025-01-30T23:38:51Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。
我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。
AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文 参考訳(メタデータ) (2024-05-15T11:33:07Z) - Music to Dance as Language Translation using Sequence Models [1.4255659581428335]
MDLTは、振付生成問題を翻訳タスクとしてフレーム化する新しい手法である。
本稿では,トランスフォーマーアーキテクチャを利用したMDLTと,Mambaアーキテクチャを用いたMDLTの2つのバリエーションを提案する。
我々はAIST++とPhantomDanceのデータセットを使ってロボットアームにダンスを教えるが、本手法は完全なヒューマノイドロボットに適用できる。
論文 参考訳(メタデータ) (2024-03-22T18:47:54Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。