Fugu-MT 論文翻訳(概要): MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding

論文の概要: MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding

arxiv url: http://arxiv.org/abs/2405.09286v1
Date: Wed, 15 May 2024 12:11:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 13:36:32.805695
Title: MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
Title（参考訳）: MVBIND:空間結合を埋め込んだビデオのための自己監督型音楽レコメンデーション
Authors: Jiajie Teng, Huiyu Duan, Yucheng Zhu, Sijing Wu, Guangtao Zhai,
Abstract要約: 本稿では,相互モーダル検索のための音楽-ビデオ埋め込み空間バインディングモデルであるMVBindを紹介する。 MVBindは自己教師型アプローチとして機能し、データから直接モーダル間関係の固有知識を取得する。 SVM-10K (Short Video with Music-10K) というデータセットを構築した。
参考スコア（独自算出の注目度）: 39.149899771556704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed the rapid development of short videos, which usually contain both visual and audio modalities. Background music is important to the short videos, which can significantly influence the emotions of the viewers. However, at present, the background music of short videos is generally chosen by the video producer, and there is a lack of automatic music recommendation methods for short videos. This paper introduces MVBind, an innovative Music-Video embedding space Binding model for cross-modal retrieval. MVBind operates as a self-supervised approach, acquiring inherent knowledge of intermodal relationships directly from data, without the need of manual annotations. Additionally, to compensate the lack of a corresponding musical-visual pair dataset for short videos, we construct a dataset, SVM-10K(Short Video with Music-10K), which mainly consists of meticulously selected short videos. On this dataset, MVBind manifests significantly improved performance compared to other baseline methods. The constructed dataset and code will be released to facilitate future research.
Abstract（参考訳）: 近年では、視覚とオーディオの両方のモダリティを含むショートビデオが急速に発展していくのを目撃している。背景音楽は短いビデオにとって重要であり、視聴者の感情に大きな影響を及ぼす可能性がある。しかし,現在,ショートビデオの背景音楽は一般的にビデオ制作者によって選択されており,ショートビデオの自動レコメンデーション手法が欠如している。本稿では,相互モーダル検索のための音楽-ビデオ埋め込み空間バインディングモデルであるMVBindを紹介する。 MVBindは、手動のアノテーションを必要とせずに、データから直接、モーダル間関係の固有の知識を取得する、自己教師型アプローチとして機能する。さらに,ショートビデオに対応する音楽対データセットの欠如を補うため,細心の注意を払って選択したショートビデオからなるSVM-10K(Short Video with Music-10K)というデータセットを構築した。このデータセットでは、MVBindは他のベースラインメソッドに比べてパフォーマンスが大幅に向上した。構築されたデータセットとコードは、将来の研究を促進するためにリリースされる。

関連論文リスト

Cross-Modal Learning for Music-to-Music-Video Description Generation [22.27153318775917]
音楽-音楽-ビデオ(MV)生成は、音楽とビデオのモダリティに固有の違いがあるため、難しい課題である。本研究では,MV記述生成タスクに着目し,包括的パイプラインを提案する。新たに構築した音楽-MV記述データセット上で,既存の学習済みマルチモーダルモデルを微調整する。
論文参考訳（メタデータ） (2025-03-14T08:34:28Z)
GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文参考訳（メタデータ） (2025-01-17T06:30:11Z)
VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。 VideoRAGは近年のLVLM(Large Video Language Models)を利用している。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-10T11:17:15Z)
Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文参考訳（メタデータ） (2024-09-19T17:59:55Z)
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文参考訳（メタデータ） (2024-09-11T17:56:48Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-21T08:39:48Z)
InverseMV: Composing Piano Scores with a Convolutional Video-Music Transformer [2.157478102241537]
本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
論文参考訳（メタデータ） (2021-12-31T06:39:28Z)
Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文参考訳（メタデータ） (2021-12-07T18:58:33Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。