論文の概要: Controllable Video-to-Music Generation with Multiple Time-Varying Conditions
- arxiv url: http://arxiv.org/abs/2507.20627v1
- Date: Mon, 28 Jul 2025 08:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.988461
- Title: Controllable Video-to-Music Generation with Multiple Time-Varying Conditions
- Title(参考訳): 複数の時間変化条件による可制御型ビデオ・音楽生成
- Authors: Junxian Wu, Weitao You, Heda Zuo, Dengming Zhang, Pei Chen, Lingyun Sun,
- Abstract要約: 音楽はビデオの物語や感情を高め、V2M(Automatic Video-to-music)生成の需要を加速させる。
既存のV2M手法は、視覚的特徴や補足的なテキスト入力にのみ依存しており、ブラックボックス方式で音楽を生成する。
本稿では,複数の時間変化条件を取り入れたマルチ条件誘導型V2M生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.646682524511682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music enhances video narratives and emotions, driving demand for automatic video-to-music (V2M) generation. However, existing V2M methods relying solely on visual features or supplementary textual inputs generate music in a black-box manner, often failing to meet user expectations. To address this challenge, we propose a novel multi-condition guided V2M generation framework that incorporates multiple time-varying conditions for enhanced control over music generation. Our method uses a two-stage training strategy that enables learning of V2M fundamentals and audiovisual temporal synchronization while meeting users' needs for multi-condition control. In the first stage, we introduce a fine-grained feature selection module and a progressive temporal alignment attention mechanism to ensure flexible feature alignment. For the second stage, we develop a dynamic conditional fusion module and a control-guided decoder module to integrate multiple conditions and accurately guide the music composition process. Extensive experiments demonstrate that our method outperforms existing V2M pipelines in both subjective and objective evaluations, significantly enhancing control and alignment with user expectations.
- Abstract(参考訳): 音楽はビデオの物語や感情を高め、V2M(Automatic Video-to-music)生成の需要を加速させる。
しかし、既存のV2M手法は、視覚的特徴や補足的なテキスト入力にのみ依存し、ブラックボックス方式で音楽を生成する。
この課題に対処するために,複数の時間変化条件を組み込んだマルチ条件誘導型V2M生成フレームワークを提案する。
本手法では,マルチ条件制御におけるユーザの要求に応えつつ,V2Mの基礎と聴覚的時間同期の学習を可能にする2段階の学習戦略を用いる。
第1段階では、フレキシブルな特徴アライメントを確保するために、きめ細かい特徴選択モジュールとプログレッシブ時間アライメントアライメントアテンション機構を導入する。
第2段階では、動的条件付き融合モジュールと制御誘導デコーダモジュールを開発し、複数の条件を統合し、作曲過程を正確にガイドする。
大規模実験により,本手法は主観評価と客観的評価の両方において既存のV2Mパイプラインよりも優れており,制御性やユーザ期待との整合性が著しく向上していることが示された。
関連論文リスト
- Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。
我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。
このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:52:16Z) - MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment [5.922172844641853]
本稿では,マルチモーダルコンテンツ理解に基づく新しい映像要約モデルであるMF2Summを紹介する。
MF2Summは、特徴抽出、モーダル間アテンション相互作用、特徴融合、セグメント予測、キーショット選択という5段階のプロセスを採用している。
SumMeおよびTVSumデータセットの実験結果から,MF2Summが競合性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-06-12T07:32:51Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。