論文の概要: MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
- arxiv url: http://arxiv.org/abs/2405.09286v1
- Date: Wed, 15 May 2024 12:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:36:32.805695
- Title: MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
- Title(参考訳): MVBIND:空間結合を埋め込んだビデオのための自己監督型音楽レコメンデーション
- Authors: Jiajie Teng, Huiyu Duan, Yucheng Zhu, Sijing Wu, Guangtao Zhai,
- Abstract要約: 本稿では,相互モーダル検索のための音楽-ビデオ埋め込み空間バインディングモデルであるMVBindを紹介する。
MVBindは自己教師型アプローチとして機能し、データから直接モーダル間関係の固有知識を取得する。
SVM-10K (Short Video with Music-10K) というデータセットを構築した。
- 参考スコア(独自算出の注目度): 39.149899771556704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the rapid development of short videos, which usually contain both visual and audio modalities. Background music is important to the short videos, which can significantly influence the emotions of the viewers. However, at present, the background music of short videos is generally chosen by the video producer, and there is a lack of automatic music recommendation methods for short videos. This paper introduces MVBind, an innovative Music-Video embedding space Binding model for cross-modal retrieval. MVBind operates as a self-supervised approach, acquiring inherent knowledge of intermodal relationships directly from data, without the need of manual annotations. Additionally, to compensate the lack of a corresponding musical-visual pair dataset for short videos, we construct a dataset, SVM-10K(Short Video with Music-10K), which mainly consists of meticulously selected short videos. On this dataset, MVBind manifests significantly improved performance compared to other baseline methods. The constructed dataset and code will be released to facilitate future research.
- Abstract(参考訳): 近年では、視覚とオーディオの両方のモダリティを含むショートビデオが急速に発展していくのを目撃している。
背景音楽は短いビデオにとって重要であり、視聴者の感情に大きな影響を及ぼす可能性がある。
しかし,現在,ショートビデオの背景音楽は一般的にビデオ制作者によって選択されており,ショートビデオの自動レコメンデーション手法が欠如している。
本稿では,相互モーダル検索のための音楽-ビデオ埋め込み空間バインディングモデルであるMVBindを紹介する。
MVBindは、手動のアノテーションを必要とせずに、データから直接、モーダル間関係の固有の知識を取得する、自己教師型アプローチとして機能する。
さらに,ショートビデオに対応する音楽対データセットの欠如を補うため,細心の注意を払って選択したショートビデオからなるSVM-10K(Short Video with Music-10K)というデータセットを構築した。
このデータセットでは、MVBindは他のベースラインメソッドに比べてパフォーマンスが大幅に向上した。
構築されたデータセットとコードは、将来の研究を促進するためにリリースされる。
関連論文リスト
- VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [68.72384258320743]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。
次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。
Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文 参考訳(メタデータ) (2024-05-20T09:48:36Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - InverseMV: Composing Piano Scores with a Convolutional Video-Music
Transformer [2.157478102241537]
本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。
モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。
我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2021-12-31T06:39:28Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。