論文の概要: Robust Neural Audio Fingerprinting using Music Foundation Models
- arxiv url: http://arxiv.org/abs/2511.05399v1
- Date: Fri, 07 Nov 2025 16:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.835655
- Title: Robust Neural Audio Fingerprinting using Music Foundation Models
- Title(参考訳): 音楽基礎モデルを用いたロバストなニューラルオーディオフィンガープリント
- Authors: Shubhr Singh, Kiran Bhat, Xavier Riley, Benjamin Resnick, John Thickstun, Walter De Brouwer,
- Abstract要約: 我々は,その堅牢性向上を目的としたニューラルオーディオフィンガープリント技術を開発し,評価する。
ニューラルフィンガープリント手法に2つの貢献をする: 1) トレーニング済みの音楽基盤モデルをニューラルアーキテクチャのバックボーンとして利用する。
NAFPとGraFPrintの2つの最先端のニューラルフィンガープリントモデルと比較して,本手法を体系的に評価した。
- 参考スコア(独自算出の注目度): 6.130921388161775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of distorted, compressed, and manipulated music on modern media platforms like TikTok motivates the development of more robust audio fingerprinting techniques to identify the sources of musical recordings. In this paper, we develop and evaluate new neural audio fingerprinting techniques with the aim of improving their robustness. We make two contributions to neural fingerprinting methodology: (1) we use a pretrained music foundation model as the backbone of the neural architecture and (2) we expand the use of data augmentation to train fingerprinting models under a wide variety of audio manipulations, including time streching, pitch modulation, compression, and filtering. We systematically evaluate our methods in comparison to two state-of-the-art neural fingerprinting models: NAFP and GraFPrint. Results show that fingerprints extracted with music foundation models (e.g., MuQ, MERT) consistently outperform models trained from scratch or pretrained on non-musical audio. Segment-level evaluation further reveals their capability to accurately localize fingerprint matches, an important practical feature for catalog management.
- Abstract(参考訳): TikTokのような現代メディアプラットフォームにおける歪み、圧縮、操作された音楽の拡散は、より堅牢なオーディオフィンガープリント技術を開発し、音楽録音のソースを特定する動機となっている。
本稿では,その堅牢性向上を目的としたニューラルオーディオフィンガープリント技術を開発し,評価する。
我々は,(1)ニューラルネットワークのバックボーンとして事前学習音楽基盤モデルを使用し,(2)時間ストレッチ,ピッチ変調,圧縮,フィルタリングなど,多様な音声操作の下での指紋認証モデルのトレーニングにデータ拡張の利用を拡大する。
NAFPとGraFPrintの2つの最先端のニューラルフィンガープリントモデルと比較して,本手法を体系的に評価した。
以上の結果から,音楽基礎モデル(例えば, MuQ, MERT)で抽出した指紋は,スクラッチからトレーニングしたモデルや,非音楽オーディオで事前訓練したモデルよりも一貫して優れていた。
セグメンションレベルの評価はさらに、カタログ管理の重要な実用的特徴である指紋マッチングを正確にローカライズする能力を明らかにしている。
関連論文リスト
- Scalable Evaluation for Audio Identification via Synthetic Latent Fingerprint Generation [17.07118976088468]
大規模なパブリック・ミュージック・データベースの欠如により,現実的な規模でのオーディオ・フィンガープリントの評価が制限される。
実際の指紋の分布を近似した潜伏指紋を合成するオーディオフリーな手法を提案する。
本研究では,本システムを用いて生成した合成指紋をリアルな気晴らし器として機能し,音声の追加を必要とせずに大規模検索性能のシミュレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-23T04:11:15Z) - Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。
画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文 参考訳(メタデータ) (2025-07-07T10:46:07Z) - Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset [0.29998889086656577]
人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。
共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
論文 参考訳(メタデータ) (2025-02-10T11:30:35Z) - Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Artificial Fingerprinting for Generative Models: Rooting Deepfake
Attribution in Training Data [64.65952078807086]
光現実性画像生成は、GAN(Generative Adversarial Network)のブレークスルーにより、新たな品質レベルに達した。
しかし、このようなディープフェイクのダークサイド、すなわち生成されたメディアの悪意ある使用は、視覚的誤報に関する懸念を提起する。
我々は,モデルに人工指紋を導入することによって,深度検出の積極的な,持続可能なソリューションを模索する。
論文 参考訳(メタデータ) (2020-07-16T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。