論文の概要: Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval
- arxiv url: http://arxiv.org/abs/2407.19415v1
- Date: Sun, 28 Jul 2024 07:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:22:10.224864
- Title: Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval
- Title(参考訳): 動画音楽検索から始める:クロスモーダル検索のためのイントラ・モーダル・ロス
- Authors: Zeyu Chen, Pengfei Zhang, Kai Ye, Wei Dong, Xin Feng, Yana Zhang,
- Abstract要約: ペアにない多くのビデオや音楽は互換性があり、データセットの偽陰性ノイズにつながる可能性がある。
新たなイントラ・モーダル(II)損失を解法として提案する。
II-CLVMは、YouTube8Mデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.186650169199535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The burgeoning short video industry has accelerated the advancement of video-music retrieval technology, assisting content creators in selecting appropriate music for their videos. In self-supervised training for video-to-music retrieval, the video and music samples in the dataset are separated from the same video work, so they are all one-to-one matches. This does not match the real situation. In reality, a video can use different music as background music, and a music can be used as background music for different videos. Many videos and music that are not in a pair may be compatible, leading to false negative noise in the dataset. A novel inter-intra modal (II) loss is proposed as a solution. By reducing the variation of feature distribution within the two modalities before and after the encoder, II loss can reduce the model's overfitting to such noise without removing it in a costly and laborious way. The video-music retrieval framework, II-CLVM (Contrastive Learning for Video-Music Retrieval), incorporating the II Loss, achieves state-of-the-art performance on the YouTube8M dataset. The framework II-CLVTM shows better performance when retrieving music using multi-modal video information (such as text in videos). Experiments are designed to show that II loss can effectively alleviate the problem of false negative noise in retrieval tasks. Experiments also show that II loss improves various self-supervised and supervised uni-modal and cross-modal retrieval tasks, and can obtain good retrieval models with a small amount of training samples.
- Abstract(参考訳): 急成長するショートビデオ産業は、ビデオ音楽検索技術の進歩を加速し、コンテンツ制作者がビデオに適切な音楽を選ぶのを助ける。
ビデオ対音楽検索のためのセルフ教師付きトレーニングでは、データセット内のビデオと音楽サンプルは、同じビデオワークから分離されるため、すべて1対1の一致である。
これは実際の状況と一致しない。
実際には、ビデオは異なる音楽をバックグラウンド音楽として使用することができ、異なるビデオのバックグラウンド音楽として使用することができる。
ペアにない多くのビデオや音楽は互換性があり、データセットの偽陰性ノイズにつながる可能性がある。
新たなイントラ・モーダル(II)損失を解法として提案する。
エンコーダの前後の2つのモードにおける特徴分布のばらつきを低減させることにより、IIの損失は、コストと手間のかかる方法で除去することなく、そのようなノイズへの過度な適合を低減できる。
ビデオ音楽検索フレームワークであるII-CLVM(Contrastive Learning for Video-Music Retrieval)は、II Lossを取り入れ、YouTube8Mデータセット上で最先端のパフォーマンスを達成する。
フレームワークII-CLVTMは、マルチモーダルなビデオ情報(動画のテキストなど)を用いて音楽を取得する際に、より良いパフォーマンスを示す。
実験により,II損失は検索タスクにおける偽陰性雑音の問題を効果的に軽減できることが示された。
実験により,II損失は多種多様な一様・一様・多様検索タスクを改善し,少ないトレーニングサンプルで良好な検索モデルが得られることが示された。
関連論文リスト
- VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Towards Contrastive Learning in Music Video Domain [46.29203572184694]
我々は、オーディオとビデオのモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では、50万曲のミュージックビデオを含む業界データセットと、公開ミリオンソングデータセットを使用します。
この結果から, コントラスト的な微調整のない事前学習ネットワークは, 両タスクで評価した場合に, コントラスト的な学習手法より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-01T09:08:21Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。