論文の概要: YingVideo-MV: Music-Driven Multi-Stage Video Generation
- arxiv url: http://arxiv.org/abs/2512.02492v1
- Date: Tue, 02 Dec 2025 07:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.768875
- Title: YingVideo-MV: Music-Driven Multi-Stage Video Generation
- Title(参考訳): YingVideo-MV:音楽によるマルチステージビデオ生成
- Authors: Jiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen,
- Abstract要約: 我々は、音楽駆動長ビデオ生成のための最初のケースドフレームワークであるYingVideo-MVを紹介する。
提案手法は,音声意味解析,解釈可能なショットプランニングモジュール,時間対応拡散変換器アーキテクチャを統合する。
我々は,多種多様な高品質な結果の達成を支援するために,Wildにおける大規模音楽データセットを構築した。
- 参考スコア(独自算出の注目度): 22.89609000437466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .
- Abstract(参考訳): 音声駆動アバタービデオ生成のための拡散モデルは、自然な音声-視覚同期とアイデンティティの整合性で長いシーケンスを合成する際、顕著なプロセスが達成されているが、カメラモーションによる音楽パフォーマンスビデオの生成は、まだ明らかにされていない。
我々は、音楽駆動長ビデオ生成のための最初のケースドフレームワークであるYingVideo-MVを紹介する。
提案手法は,音声意味解析,解釈可能なショットプランニングモジュール(MV-Director),時間対応拡散トランスフォーマーアーキテクチャ,および長周期整合性モデリングを統合し,高品質な演奏映像を音声信号から自動合成する。
我々は,多種多様な高品質な結果の達成を支援するために,Webデータを収集し,大規模な音楽データ集合を構築した。
従来の長ビデオ生成手法ではカメラのモーションコントロールが欠如していることから,カメラのポーズを潜時雑音に埋め込むカメラアダプターモジュールを導入する。
長周期推論におけるクリップ間の連続性を高めるため,音声埋め込みに基づく遅延範囲を適応的に調整する動的ウィンドウ範囲戦略を提案する。
総合的なベンチマークテストにより、YingVideo-MVは、一貫性のある表現力のある音楽ビデオを生成する際、優れたパフォーマンスを達成し、正確な音楽-モーションカメラ同期を可能にすることが示された。
より多くのビデオがプロジェクトページで公開されています。
関連論文リスト
- Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。
我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。
このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:52:16Z) - Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。
MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文 参考訳(メタデータ) (2025-06-09T17:59:42Z) - GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。
本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。
提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文 参考訳(メタデータ) (2025-01-17T06:30:11Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。