論文の概要: V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
- arxiv url: http://arxiv.org/abs/2603.11042v1
- Date: Wed, 11 Mar 2026 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.097233
- Title: V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
- Title(参考訳): V2M-Zero:ゼロペアのタイムアライメントビデオ・ミュージック・ジェネレーション
- Authors: Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan,
- Abstract要約: V2M-Zero(V2M-Zero)は、ビデオのためのタイムアラインな音楽を出力するゼロペア・ビデオ・ツー・ミュージック・ジェネレーションのアプローチである。
我々の手法は重要な観測によって動機付けられている: 時間同期は、いつ、どのくらいの変化が起こるかではなく、いつ、どのくらいの変化が起こるかの一致を必要とする。
- 参考スコア(独自算出の注目度): 35.44526708016307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/
- Abstract(参考訳): ビデオイベントと時間的に整合する音楽を生成することは、微粒な時間制御を欠く既存のテキスト-音楽モデルでは困難である。
V2M-Zeroは、ビデオのためのタイムアラインな音楽を出力するゼロペア・ビデオ・ツー・ミュージック・ジェネレーション手法である。
我々の手法は重要な観察によって動機付けられている: 時間同期は、いつ、どのくらいの変化が起こるかではなく、いつ、どのくらいの変化が起こるかの一致を必要とする。
音楽イベントと視覚イベントは意味的に異なるが、それぞれのモダリティ内で独立して捉えられる共通の時間構造を示す。
事前学習した音楽とビデオエンコーダを用いて、モーダル内類似度から計算したイベント曲線を用いて、この構造をキャプチャする。
それぞれのモダリティ内の時間的変化を独立に測定することにより、これらの曲線はモダリティにまたがる同等の表現を提供する。
これにより、単純なトレーニング戦略が実現される: 音楽イベント曲線上でテキストから音楽へのモデルを微調整し、その後、クロスモーダルトレーニングやペアデータなしで推論時にビデオイベント曲線を置換する。
OES-Pub、MovieGenBench-Music、AIST++全体で、V2M-Zeroはペアデータベースラインよりも大幅に向上している: オーディオ品質が5-21%、セマンティックアライメントが13-15%、時間同期が21-52%改善、ダンスビデオのビートアライメントが28%向上した。
また,クラウドソースによる大規模主観的聴取テストにより,同様の結果を得た。
以上の結果から, 対の相互監視よりも, モーダル内特徴による時間的アライメントが, 映像から音楽への生成に有効であることが確認された。
結果はhttps://genjib.github.io/v2m_zero/で公開されている。
関連論文リスト
- Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。
我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。
このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:52:16Z) - Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。
MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文 参考訳(メタデータ) (2025-06-09T17:59:42Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。