論文の概要: Leveraging User-Generated Metadata of Online Videos for Cover Song Identification
- arxiv url: http://arxiv.org/abs/2412.11818v1
- Date: Mon, 16 Dec 2024 14:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:53.011451
- Title: Leveraging User-Generated Metadata of Online Videos for Cover Song Identification
- Title(参考訳): カバーソング識別のためのオンラインビデオのユーザ生成メタデータの活用
- Authors: Simon Hachmeier, Robert Jäschke,
- Abstract要約: 本稿では,オンラインビデオプラットフォーム上での楽曲識別のためのマルチモーダル手法を提案する。
エンティティ・レゾリューション・モデルとオーディオ・ベース・アプローチをランキング・モデルを用いて組み合わせる。
本研究は,ユーザ生成メタデータを活用することで,YouTubeのカバー楽曲識別性能を安定させることができることを示唆している。
- 参考スコア(独自算出の注目度): 0.046040036610482664
- License:
- Abstract: YouTube is a rich source of cover songs. Since the platform itself is organized in terms of videos rather than songs, the retrieval of covers is not trivial. The field of cover song identification addresses this problem and provides approaches that usually rely on audio content. However, including the user-generated video metadata available on YouTube promises improved identification results. In this paper, we propose a multi-modal approach for cover song identification on online video platforms. We combine the entity resolution models with audio-based approaches using a ranking model. Our findings implicate that leveraging user-generated metadata can stabilize cover song identification performance on YouTube.
- Abstract(参考訳): YouTubeはカバーソングの豊富な源泉だ。
プラットフォーム自体が曲ではなくビデオによって構成されているため、カバーの検索は簡単ではない。
カバーソング識別の分野はこの問題に対処し、通常オーディオコンテンツに依存するアプローチを提供する。
しかし、ユーザー生成ビデオメタデータを含むYouTubeでは、識別結果の改善が約束されている。
本稿では,オンラインビデオプラットフォーム上での楽曲識別のためのマルチモーダル手法を提案する。
格付けモデルを用いて,エンティティ・レゾリューション・モデルとオーディオ・ベース・アプローチを組み合わせる。
本研究は,ユーザ生成メタデータを活用することで,YouTubeのカバー楽曲識別性能を安定させることができることを示唆している。
関連論文リスト
- VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Innovations in Cover Song Detection: A Lyrics-Based Approach [1.192676421261413]
歌の歌詞を利用したカバー歌検出手法を提案する。
曲とその対応するオリジナルをカバーする新しいデータセットを提案する。
他のカバーソングのデータセットとは対照的に、オリジナルソングとカバーソングの注釈付き歌詞を含んでいる。
論文 参考訳(メタデータ) (2024-06-06T06:52:25Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Towards Cover Song Detection with Siamese Convolutional Neural Networks [0.4737991126491218]
私たちは、数万のカバーソングオーディオクリップでニューラルネットワークをトレーニングし、保留のセットでそれをテストします。
最小バッチの65%の平均精度@1をランダムな推測の10倍の精度で取得する。
論文 参考訳(メタデータ) (2020-05-20T18:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。