論文の概要: Video Background Music Generation: Dataset, Method and Evaluation
- arxiv url: http://arxiv.org/abs/2211.11248v2
- Date: Fri, 4 Aug 2023 15:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:31:44.897060
- Title: Video Background Music Generation: Dataset, Method and Evaluation
- Title(参考訳): ビデオ背景音楽生成:データセット、方法、および評価
- Authors: Le Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Chenxi Bao, Stanley
Peng, Songhao Han, Aixi Zhang, Fei Fang, Si Liu
- Abstract要約: 本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.15901120245794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music is essential when editing videos, but selecting music manually is
difficult and time-consuming. Thus, we seek to automatically generate
background music tracks given video input. This is a challenging task since it
requires music-video datasets, efficient architectures for video-to-music
generation, and reasonable metrics, none of which currently exist. To close
this gap, we introduce a complete recipe including dataset, benchmark model,
and evaluation metric for video background music generation. We present SymMV,
a video and symbolic music dataset with various musical annotations. To the
best of our knowledge, it is the first video-music dataset with rich musical
annotations. We also propose a benchmark video background music generation
framework named V-MusProd, which utilizes music priors of chords, melody, and
accompaniment along with video-music relations of semantic, color, and motion
features. To address the lack of objective metrics for video-music
correspondence, we design a retrieval-based metric VMCP built upon a powerful
video-music representation learning model. Experiments show that with our
dataset, V-MusProd outperforms the state-of-the-art method in both music
quality and correspondence with videos. We believe our dataset, benchmark
model, and evaluation metric will boost the development of video background
music generation. Our dataset and code are available at
https://github.com/zhuole1025/SymMV.
- Abstract(参考訳): ビデオの編集には音楽が不可欠だが、手動で音楽を選ぶのは困難で時間がかかる。
そこで我々は,ビデオ入力によるバックグラウンド楽曲の自動生成を目指す。
これは、音楽ビデオデータセット、ビデオから音楽への生成のための効率的なアーキテクチャ、合理的なメトリクスを必要とするため、難しい作業である。
このギャップを埋めるために,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを紹介する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
私たちの知る限りでは、リッチな音楽アノテーションを備えた最初のビデオ音楽データセットです。
また,v-musprodというビデオ背景音楽生成フレームワークを提案する。これは和音,メロディ,伴奏の楽曲先行と,意味・色・動きの映像・音楽関係を利用する。
映像音楽対応のための客観的な指標の欠如に対処するため,強力な映像音楽表現学習モデルに基づく検索ベースVMCPを設計する。
実験の結果,V-MusProdは音楽の質とビデオとの対応性の両方において,最先端の手法よりも優れていた。
我々は,我々のデータセット,ベンチマークモデル,評価指標が,ビデオバックグラウンド音楽の生成を促進すると信じている。
データセットとコードはhttps://github.com/zhuole1025/SymMV.comから入手可能です。
関連論文リスト
- Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - VMCML: Video and Music Matching via Cross-Modality Lifting [27.63140086455471]
本稿では,ビデオとバックグラウンド音楽のマッチングのためのコンテンツベースシステムを提案する。
このシステムは、新しいユーザーのための音楽レコメンデーションや、ショートフォームビデオを提供する新しい音楽の課題に対処することを目的としている。
論文 参考訳(メタデータ) (2023-03-22T08:28:23Z) - ComMU: Dataset for Combinatorial Music Generation [20.762884001498627]
Combinatorの音楽生成は、音楽の短いサンプルと豊かな音楽メタデータを生成し、それらを組み合わせて完全な音楽を生成する。
ComMUは、短い音楽サンプルとそれに対応する12の音楽メタデータからなる最初のシンボリック音楽データセットである。
以上の結果から,トラックロールやコード品質などのユニークなメタデータが自動合成の能力を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-11-17T07:25:09Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - InverseMV: Composing Piano Scores with a Convolutional Video-Music
Transformer [2.157478102241537]
本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。
モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。
我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2021-12-31T06:39:28Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。