論文の概要: Video Background Music Generation: Dataset, Method and Evaluation
- arxiv url: http://arxiv.org/abs/2211.11248v2
- Date: Fri, 4 Aug 2023 15:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:31:44.897060
- Title: Video Background Music Generation: Dataset, Method and Evaluation
- Title(参考訳): ビデオ背景音楽生成:データセット、方法、および評価
- Authors: Le Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Chenxi Bao, Stanley
Peng, Songhao Han, Aixi Zhang, Fei Fang, Si Liu
- Abstract要約: 本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.15901120245794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music is essential when editing videos, but selecting music manually is
difficult and time-consuming. Thus, we seek to automatically generate
background music tracks given video input. This is a challenging task since it
requires music-video datasets, efficient architectures for video-to-music
generation, and reasonable metrics, none of which currently exist. To close
this gap, we introduce a complete recipe including dataset, benchmark model,
and evaluation metric for video background music generation. We present SymMV,
a video and symbolic music dataset with various musical annotations. To the
best of our knowledge, it is the first video-music dataset with rich musical
annotations. We also propose a benchmark video background music generation
framework named V-MusProd, which utilizes music priors of chords, melody, and
accompaniment along with video-music relations of semantic, color, and motion
features. To address the lack of objective metrics for video-music
correspondence, we design a retrieval-based metric VMCP built upon a powerful
video-music representation learning model. Experiments show that with our
dataset, V-MusProd outperforms the state-of-the-art method in both music
quality and correspondence with videos. We believe our dataset, benchmark
model, and evaluation metric will boost the development of video background
music generation. Our dataset and code are available at
https://github.com/zhuole1025/SymMV.
- Abstract(参考訳): ビデオの編集には音楽が不可欠だが、手動で音楽を選ぶのは困難で時間がかかる。
そこで我々は,ビデオ入力によるバックグラウンド楽曲の自動生成を目指す。
これは、音楽ビデオデータセット、ビデオから音楽への生成のための効率的なアーキテクチャ、合理的なメトリクスを必要とするため、難しい作業である。
このギャップを埋めるために,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを紹介する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
私たちの知る限りでは、リッチな音楽アノテーションを備えた最初のビデオ音楽データセットです。
また,v-musprodというビデオ背景音楽生成フレームワークを提案する。これは和音,メロディ,伴奏の楽曲先行と,意味・色・動きの映像・音楽関係を利用する。
映像音楽対応のための客観的な指標の欠如に対処するため,強力な映像音楽表現学習モデルに基づく検索ベースVMCPを設計する。
実験の結果,V-MusProdは音楽の質とビデオとの対応性の両方において,最先端の手法よりも優れていた。
我々は,我々のデータセット,ベンチマークモデル,評価指標が,ビデオバックグラウンド音楽の生成を促進すると信じている。
データセットとコードはhttps://github.com/zhuole1025/SymMV.comから入手可能です。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。
次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。
Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文 参考訳(メタデータ) (2024-05-20T09:48:36Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - InverseMV: Composing Piano Scores with a Convolutional Video-Music
Transformer [2.157478102241537]
本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。
モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。
我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2021-12-31T06:39:28Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。