論文の概要: Audio-Sync Video Generation with Multi-Stream Temporal Control
- arxiv url: http://arxiv.org/abs/2506.08003v1
- Date: Mon, 09 Jun 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.108217
- Title: Audio-Sync Video Generation with Multi-Stream Temporal Control
- Title(参考訳): マルチストリームテンポラル制御によるオーディオ同期映像生成
- Authors: Shuchen Weng, Haojie Zheng, Zheng Chang, Si Li, Boxin Shi, Xinlong Wang,
- Abstract要約: 我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。
MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
- 参考スコア(独自算出の注目度): 64.00019697525322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio is inherently temporal and closely synchronized with the visual world, making it a naturally aligned and expressive control signal for controllable video generation (e.g., movies). Beyond control, directly translating audio into video is essential for understanding and visualizing rich audio narratives (e.g., Podcasts or historical recordings). However, existing approaches fall short in generating high-quality videos with precise audio-visual synchronization, especially across diverse and complex audio types. In this work, we introduce MTV, a versatile framework for audio-sync video generation. MTV explicitly separates audios into speech, effects, and music tracks, enabling disentangled control over lip motion, event timing, and visual mood, respectively -- resulting in fine-grained and semantically aligned video generation. To support the framework, we additionally present DEMIX, a dataset comprising high-quality cinematic videos and demixed audio tracks. DEMIX is structured into five overlapped subsets, enabling scalable multi-stage training for diverse generation scenarios. Extensive experiments demonstrate that MTV achieves state-of-the-art performance across six standard metrics spanning video quality, text-video consistency, and audio-video alignment. Project page: https://hjzheng.net/projects/MTV/.
- Abstract(参考訳): オーディオは本質的には時間的であり、視覚世界と密に同期しているため、制御可能なビデオ生成(例えば映画)のための自然に整列し、表現力のある制御信号となる。
コントロール以外にも、音声を直接ビデオに翻訳することは、リッチなオーディオの物語(ポッドキャスト、過去の録音など)を理解し視覚化するのに不可欠である。
しかし、既存のアプローチは、特に多種多様な複雑なオーディオタイプにおいて、正確な音声と視覚の同期を伴う高品質なビデオを生成するのに不足している。
本稿では,音声同期ビデオ生成のための汎用フレームワークであるMTVを紹介する。
MTVは、音声を音声、エフェクト、音楽のトラックに明確に分離し、それぞれの唇の動き、イベントタイミング、視覚的気分のゆがめられた制御を可能にする。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックからなるデータセットであるDEMIXを提示する。
DEMIXは5つの重複したサブセットで構成されており、多様な生成シナリオに対するスケーラブルなマルチステージトレーニングを可能にする。
大規模な実験により、MTVはビデオの品質、テキスト・ビデオの一貫性、オーディオ・ビデオのアライメントにまたがる6つの標準メトリクスで最先端のパフォーマンスを実現している。
プロジェクトページ: https://hjjheng.net/projects/MTV/。
関連論文リスト
- MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。