論文の概要: Leveraging Whisper Embeddings for Audio-based Lyrics Matching
- arxiv url: http://arxiv.org/abs/2510.08176v1
- Date: Thu, 09 Oct 2025 13:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.083103
- Title: Leveraging Whisper Embeddings for Audio-based Lyrics Matching
- Title(参考訳): オーディオベースの歌詞マッチングのためのウィスパー埋め込みの活用
- Authors: Eleonora Mancini, Joan Serrà, Paolo Torroni, Yuki Mitsufuji,
- Abstract要約: WEALYは、Whisperデコーダの埋め込みを活用して、完全に再現可能なパイプラインである。
We demonstrate that WEALY achieve a performance to the state-of-the-art method that without robustness。
本研究は,今後の研究に信頼性の高いベンチマークを提供し,音楽情報検索タスクにおける音声技術の可能性を裏付けるものである。
- 参考スコア(独自算出の注目度): 35.54408523154097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-based lyrics matching can be an appealing alternative to other content-based retrieval approaches, but existing methods often suffer from limited reproducibility and inconsistent baselines. In this work, we introduce WEALY, a fully reproducible pipeline that leverages Whisper decoder embeddings for lyrics matching tasks. WEALY establishes robust and transparent baselines, while also exploring multimodal extensions that integrate textual and acoustic features. Through extensive experiments on standard datasets, we demonstrate that WEALY achieves a performance comparable to state-of-the-art methods that lack reproducibility. In addition, we provide ablation studies and analyses on language robustness, loss functions, and embedding strategies. This work contributes a reliable benchmark for future research, and underscores the potential of speech technologies for music information retrieval tasks.
- Abstract(参考訳): 音声ベースの歌詞マッチングは、他のコンテンツベースの検索手法に代わる魅力的な方法であるが、既存の手法では再現性や一貫性の低いベースラインに悩まされることが多い。
本稿では,Whisperデコーダを組み込んだ完全再現可能なパイプラインであるWAALYを紹介する。
WEALYは堅牢で透明なベースラインを確立し、テキストと音響機能を統合するマルチモーダル拡張も検討している。
標準データセットに関する広範な実験を通じて、WAALYは再現性に欠ける最先端の手法に匹敵する性能を達成することを実証した。
さらに,言語ロバスト性,損失関数,埋め込み戦略に関するアブレーション研究と分析を行った。
本研究は,今後の研究に信頼性の高いベンチマークを提供し,音楽情報検索タスクにおける音声技術の可能性を裏付けるものである。
関連論文リスト
- Summarizing Speech: A Comprehensive Survey [76.13011304983458]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。
本調査では,要約手法の質を評価する上で重要な,既存のデータセットと評価プロトコルについて検討する。
論文 参考訳(メタデータ) (2025-04-10T17:50:53Z) - CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.58671300364536]
本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。
高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。
実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-03-29T15:43:09Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。