論文の概要: VMCML: Video and Music Matching via Cross-Modality Lifting
- arxiv url: http://arxiv.org/abs/2303.12379v1
- Date: Wed, 22 Mar 2023 08:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:40:53.746414
- Title: VMCML: Video and Music Matching via Cross-Modality Lifting
- Title(参考訳): VMCML: クロスプラットフォームによるビデオと音楽のマッチング
- Authors: Yi-Shan Lee, Wei-Cheng Tseng, Fu-En Wang, Min Sun
- Abstract要約: 本稿では,ビデオとバックグラウンド音楽のマッチングのためのコンテンツベースシステムを提案する。
このシステムは、新しいユーザーのための音楽レコメンデーションや、ショートフォームビデオを提供する新しい音楽の課題に対処することを目的としている。
- 参考スコア(独自算出の注目度): 27.63140086455471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a content-based system for matching video and background music.
The system aims to address the challenges in music recommendation for new users
or new music give short-form videos. To this end, we propose a cross-modal
framework VMCML that finds a shared embedding space between video and music
representations. To ensure the embedding space can be effectively shared by
both representations, we leverage CosFace loss based on margin-based cosine
similarity loss. Furthermore, we establish a large-scale dataset called MSVD,
in which we provide 390 individual music and the corresponding matched 150,000
videos. We conduct extensive experiments on Youtube-8M and our MSVD datasets.
Our quantitative and qualitative results demonstrate the effectiveness of our
proposed framework and achieve state-of-the-art video and music matching
performance.
- Abstract(参考訳): ビデオと背景音楽のマッチングのためのコンテンツベースシステムを提案する。
このシステムは、新しいユーザーのための音楽レコメンデーションや、短いビデオを提供する新しい音楽の課題に対処することを目的としている。
この目的のために,ビデオと音楽の表現に共通する埋め込み空間を求めるクロスモーダルフレームワークVMCMLを提案する。
両表現で埋め込み空間を効果的に共有できるようにするため,余剰コサイン類似度損失に基づくCosFace損失を利用する。
さらに,msvdと呼ばれる大規模データセットを確立し,それぞれ390曲の楽曲とマッチングした15万本のビデオを提供する。
Youtube-8MとMSVDデータセットについて広範な実験を行った。
提案手法の有効性を定量的・定性的に検証し,現状の映像と音楽のマッチング性能を実現する。
関連論文リスト
- Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Video-to-Music Recommendation using Temporal Alignment of Segments [5.7235653928654235]
ビデオのサウンドトラックとして使用される楽曲のモーダルな推薦について検討する。
音楽と映像の関連性を学習する自己教師システムを構築した。
本稿では,構造認識レコメンデーションを用いたシステムの性能向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:40:31Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - InverseMV: Composing Piano Scores with a Convolutional Video-Music
Transformer [2.157478102241537]
本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。
モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。
我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2021-12-31T06:39:28Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。