Fugu-MT 論文翻訳(概要): VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

論文の概要: VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

arxiv url: http://arxiv.org/abs/2409.07450v1
Date: Wed, 11 Sep 2024 17:56:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 13:26:57.772834
Title: VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
Title（参考訳）: VMAS:ウェブ・ミュージック・ビデオにおけるセマンティック・アライメントによるビデオ・ツー・ミュージック・ジェネレーション
Authors: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang,
Abstract要約: ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
参考スコア（独自算出の注目度）: 32.741262543860934
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present a framework for learning to generate background music from video inputs. Unlike existing works that rely on symbolic musical annotations, which are limited in quantity and diversity, our method leverages large-scale web videos accompanied by background music. This enables our model to learn to generate realistic and diverse music. To accomplish this goal, we develop a generative video-music Transformer with a novel semantic video-music alignment scheme. Our model uses a joint autoregressive and contrastive learning objective, which encourages the generation of music aligned with high-level video content. We also introduce a novel video-beat alignment scheme to match the generated music beats with the low-level motions in the video. Lastly, to capture fine-grained visual cues in a video needed for realistic background music generation, we introduce a new temporal video encoder architecture, allowing us to efficiently process videos consisting of many densely sampled frames. We train our framework on our newly curated DISCO-MV dataset, consisting of 2.2M video-music samples, which is orders of magnitude larger than any prior datasets used for video music generation. Our method outperforms existing approaches on the DISCO-MV and MusicCaps datasets according to various music generation evaluation metrics, including human evaluation. Results are available at https://genjib.github.io/project_page/VMAs/index.html
Abstract（参考訳）: ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。量や多様性に制限がある記号的音楽アノテーションを頼りにしている既存の作品とは異なり,本手法はバックグラウンド音楽を伴う大規模ウェブビデオを活用する。これにより、我々のモデルは現実的で多様な音楽を生み出すことができる。この目的を達成するために,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマを開発した。本モデルでは,高レベルの映像コンテンツに適合した音楽の生成を促進するために,自己回帰学習とコントラスト学習を併用する。また、生成された音楽のビートと低レベルの動画の動きとを一致させる新しいビデオビートアライメント方式も導入する。最後に,現実的な背景音楽生成に必要な映像中の微細な視覚的手がかりを捉えるために,多数の高密度サンプリングフレームからなる映像を効率的に処理できる,新しいテンポラルビデオエンコーダアーキテクチャを導入する。我々は、ビデオ音楽生成に使用される以前のデータセットよりも桁違いに大きい2.2Mのビデオ音楽サンプルからなる、新たにキュレートされたdisCO-MVデータセットに基づいて、我々のフレームワークをトレーニングする。提案手法は,DEC-MV と MusicCaps のデータセットに対する既存のアプローチを,人的評価を含む様々な音楽生成評価指標により上回っている。結果はhttps://genjib.github.io/project_page/VMAs/index.htmlで確認できる。

関連論文リスト

Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文参考訳（メタデータ） (2025-06-23T17:52:16Z)
Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。 MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文参考訳（メタデータ） (2025-06-09T17:59:42Z)
Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-04-10T09:47:26Z)
MusicInfuser: Making Video Diffusion Listen and Dance [20.41612388764672]
MusicInfuserは、特定の音楽トラックに同期した高品質なダンスビデオを生成するアプローチである。既存の映像拡散モデルがどのように音楽入力に適応できるかを示す。
論文参考訳（メタデータ） (2025-03-18T17:59:58Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。 Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文参考訳（メタデータ） (2024-05-20T09:48:36Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文参考訳（メタデータ） (2023-05-11T06:26:41Z)
Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-21T08:39:48Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。