論文の概要: Scalable Music Cover Retrieval Using Lyrics-Aligned Audio Embeddings
- arxiv url: http://arxiv.org/abs/2601.11262v1
- Date: Fri, 16 Jan 2026 13:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.498976
- Title: Scalable Music Cover Retrieval Using Lyrics-Aligned Audio Embeddings
- Title(参考訳): Lyrics-Aligned Audio Embeddings を用いたスケーラブルな音楽カバー検索
- Authors: Joanne Affolter, Benjamin Martin, Elena V. Epure, Gabriel Meseguer-Brocal, Frédéric Kaplan,
- Abstract要約: 音楽カバー検索(英: Music Cover Retrieval)またはバージョン識別(英: Version Identification)は、同じ音楽作品の異なる再考を認識することを目的としている。
LIVI(Lyrics-Informed Version Identification)は,検索精度と計算効率のバランスをとる手法である。
- 参考スコア(独自算出の注目度): 7.3788020779010255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Music Cover Retrieval, also known as Version Identification, aims to recognize distinct renditions of the same underlying musical work, a task central to catalog management, copyright enforcement, and music retrieval. State-of-the-art approaches have largely focused on harmonic and melodic features, employing increasingly complex audio pipelines designed to be invariant to musical attributes that often vary widely across covers. While effective, these methods demand substantial training time and computational resources. By contrast, lyrics constitute a strong invariant across covers, though their use has been limited by the difficulty of extracting them accurately and efficiently from polyphonic audio. Early methods relied on simple frameworks that limited downstream performance, while more recent systems deliver stronger results but require large models integrated within complex multimodal architectures. We introduce LIVI (Lyrics-Informed Version Identification), an approach that seeks to balance retrieval accuracy with computational efficiency. First, LIVI leverages supervision from state-of-the-art transcription and text embedding models during training to achieve retrieval accuracy on par with--or superior to--harmonic-based systems. Second, LIVI remains lightweight and efficient by removing the transcription step at inference, challenging the dominance of complexity-heavy pipelines.
- Abstract(参考訳): 音楽カバー検索 (Music Cover Retrieval) は、バージョン識別(Version Identification)としても知られており、カタログ管理、著作権執行、音楽検索に中心的なタスクである、同じ音楽作品の異なる再考を認識することを目的としている。
最先端のアプローチは、主にハーモニックとメロディックな機能に重点を置いており、カバー全体で広く異なる音楽属性に不変であるように設計された、ますます複雑なオーディオパイプラインを採用している。
有効ではあるが、これらの手法はかなりの訓練時間と計算資源を必要とする。
対照的に、歌詞はカバー間の強い不変性を構成するが、その使用はポリフォニックオーディオからそれらを正確かつ効率的に抽出することの困難さによって制限されている。
初期の手法はダウンストリームのパフォーマンスを制限した単純なフレームワークに依存していたが、最近のシステムはより強力な結果をもたらすが、複雑なマルチモーダルアーキテクチャに組み込まれた大規模なモデルが必要である。
LIVI(Lyrics-Informed Version Identification)は,検索精度と計算効率のバランスをとる手法である。
まず、LIVIは、トレーニング中の最先端の転写およびテキスト埋め込みモデルの監督を利用して、同等または優れたTo-ハーモニックベースのシステムでの検索精度を達成する。
第二に、LIVIは推論時に転写ステップを取り除き、複雑さの多いパイプラインの優位性に挑戦することで、軽量で効率的なままである。
関連論文リスト
- Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。