Fugu-MT 論文翻訳(概要): VMCML: Video and Music Matching via Cross-Modality Lifting

論文の概要: VMCML: Video and Music Matching via Cross-Modality Lifting

arxiv url: http://arxiv.org/abs/2303.12379v1
Date: Wed, 22 Mar 2023 08:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 14:40:53.746414
Title: VMCML: Video and Music Matching via Cross-Modality Lifting
Title（参考訳）: VMCML: クロスプラットフォームによるビデオと音楽のマッチング
Authors: Yi-Shan Lee, Wei-Cheng Tseng, Fu-En Wang, Min Sun
Abstract要約: 本稿では,ビデオとバックグラウンド音楽のマッチングのためのコンテンツベースシステムを提案する。このシステムは、新しいユーザーのための音楽レコメンデーションや、ショートフォームビデオを提供する新しい音楽の課題に対処することを目的としている。
参考スコア（独自算出の注目度）: 27.63140086455471
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a content-based system for matching video and background music. The system aims to address the challenges in music recommendation for new users or new music give short-form videos. To this end, we propose a cross-modal framework VMCML that finds a shared embedding space between video and music representations. To ensure the embedding space can be effectively shared by both representations, we leverage CosFace loss based on margin-based cosine similarity loss. Furthermore, we establish a large-scale dataset called MSVD, in which we provide 390 individual music and the corresponding matched 150,000 videos. We conduct extensive experiments on Youtube-8M and our MSVD datasets. Our quantitative and qualitative results demonstrate the effectiveness of our proposed framework and achieve state-of-the-art video and music matching performance.
Abstract（参考訳）: ビデオと背景音楽のマッチングのためのコンテンツベースシステムを提案する。このシステムは、新しいユーザーのための音楽レコメンデーションや、短いビデオを提供する新しい音楽の課題に対処することを目的としている。この目的のために,ビデオと音楽の表現に共通する埋め込み空間を求めるクロスモーダルフレームワークVMCMLを提案する。両表現で埋め込み空間を効果的に共有できるようにするため,余剰コサイン類似度損失に基づくCosFace損失を利用する。さらに,msvdと呼ばれる大規模データセットを確立し,それぞれ390曲の楽曲とマッチングした15万本のビデオを提供する。 Youtube-8MとMSVDデータセットについて広範な実験を行った。提案手法の有効性を定量的・定性的に検証し,現状の映像と音楽のマッチング性能を実現する。

関連論文リスト

GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文参考訳（メタデータ） (2025-01-17T06:30:11Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文参考訳（メタデータ） (2024-09-11T17:56:48Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding [39.149899771556704]
本稿では,相互モーダル検索のための音楽-ビデオ埋め込み空間バインディングモデルであるMVBindを紹介する。 MVBindは自己教師型アプローチとして機能し、データから直接モーダル間関係の固有知識を取得する。 SVM-10K (Short Video with Music-10K) というデータセットを構築した。
論文参考訳（メタデータ） (2024-05-15T12:11:28Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-21T08:39:48Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文参考訳（メタデータ） (2021-12-07T18:58:33Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。