論文の概要: Towards Contrastive Learning in Music Video Domain
- arxiv url: http://arxiv.org/abs/2309.00347v1
- Date: Fri, 1 Sep 2023 09:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:02:05.233422
- Title: Towards Contrastive Learning in Music Video Domain
- Title(参考訳): 音楽ビデオ分野におけるコントラスト学習に向けて
- Authors: Karel Veldkamp, Mariya Hendriksen, Zolt\'an Szl\'avik, Alexander
Keijser
- Abstract要約: 我々は、オーディオとビデオのモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では、50万曲のミュージックビデオを含む業界データセットと、公開ミリオンソングデータセットを使用します。
この結果から, コントラスト的な微調整のない事前学習ネットワークは, 両タスクで評価した場合に, コントラスト的な学習手法より優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 46.29203572184694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning is a powerful way of learning multimodal representations
across various domains such as image-caption retrieval and audio-visual
representation learning. In this work, we investigate if these findings
generalize to the domain of music videos. Specifically, we create a dual
en-coder for the audio and video modalities and train it using a bidirectional
contrastive loss. For the experiments, we use an industry dataset containing
550 000 music videos as well as the public Million Song Dataset, and evaluate
the quality of learned representations on the downstream tasks of music tagging
and genre classification. Our results indicate that pre-trained networks
without contrastive fine-tuning outperform our contrastive learning approach
when evaluated on both tasks. To gain a better understanding of the reasons
contrastive learning was not successful for music videos, we perform a
qualitative analysis of the learned representations, revealing why contrastive
learning might have difficulties uniting embeddings from two modalities. Based
on these findings, we outline possible directions for future work. To
facilitate the reproducibility of our results, we share our code and the
pre-trained model.
- Abstract(参考訳): コントラスト学習は、画像キャプション検索や音声視覚表現学習など、様々な領域にわたるマルチモーダル表現を学習する強力な方法である。
本研究では,これらの知見が音楽ビデオの領域に一般化されるかどうかを検討する。
具体的には、オーディオおよびビデオモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では,55,000万曲の動画と100万曲の公開データセットを含む業界データセットを用いて,音楽タグづけやジャンル分類の下流課題における学習表現の質を評価する。
以上の結果から,コントラスト調整を行わない事前学習ネットワークは,両タスクで評価した場合のコントラスト学習アプローチよりも優れていることが示唆された。
コントラスト学習が音楽ビデオではうまくいかなかった理由をよりよく理解するために,学習表現の質的分析を行い,コントラスト学習が2つのモダリティから組込みを一体化することが困難になる理由を明らかにする。
これらの結果に基づき,今後の作業の方向性について概説する。
結果の再現性を高めるため、コードと事前学習したモデルを共有します。
関連論文リスト
- Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。