論文の概要: Contrastive and Transfer Learning for Effective Audio Fingerprinting through a Real-World Evaluation Protocol
- arxiv url: http://arxiv.org/abs/2507.06070v1
- Date: Tue, 08 Jul 2025 15:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.249773
- Title: Contrastive and Transfer Learning for Effective Audio Fingerprinting through a Real-World Evaluation Protocol
- Title(参考訳): 実世界評価プロトコルを用いた効果的な音声フィンガープリントのためのコントラスト・トランスファー学習
- Authors: Christos Nikou, Theodoros Giannakopoulos,
- Abstract要約: 歌の識別の最近の進歩は、ディープニューラルネットワークを利用して生波形から直接コンパクトな音声指紋を学習している。
これらの手法は制御条件下では良好に動作しますが、ノイズの多い環境でモバイルデバイスを介してオーディオをキャプチャする現実のシナリオでは、その精度は大幅に低下します。
我々は同じ音声の3つの録音を生成し、それぞれが、モバイルデバイスのマイクを使って撮影されるノイズレベルを増大させる。
このプロトコルでは,2つの最新のCNNベースモデルに対して,以前報告したベンチマークと比較すると,大幅な性能低下がみられた。
- 参考スコア(独自算出の注目度): 1.8842532732272859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in song identification leverage deep neural networks to learn compact audio fingerprints directly from raw waveforms. While these methods perform well under controlled conditions, their accuracy drops significantly in real-world scenarios where the audio is captured via mobile devices in noisy environments. In this paper, we introduce a novel evaluation protocol designed to better reflect such real-world conditions. We generate three recordings of the same audio, each with increasing levels of noise, captured using a mobile device's microphone. Our results reveal a substantial performance drop for two state-of-the-art CNN-based models under this protocol, compared to previously reported benchmarks. Additionally, we highlight the critical role of the augmentation pipeline during training with contrastive loss. By introduction low pass and high pass filters in the augmentation pipeline we significantly increase the performance of both systems in our proposed evaluation. Furthermore, we develop a transformer-based model with a tailored projection module and demonstrate that transferring knowledge from a semantically relevant domain yields a more robust solution. The transformer architecture outperforms CNN-based models across all noise levels, and query durations. In low noise conditions it achieves 47.99% for 1-sec queries, and 97% for 10-sec queries in finding the correct song, surpassing by 14%, and by 18.5% the second-best performing model, respectively, Under heavy noise levels, we achieve a detection rate 56.5% for 15-second query duration. All experiments are conducted on public large-scale dataset of over 100K songs, with queries matched against a database of 56 million vectors.
- Abstract(参考訳): 歌の識別の最近の進歩は、ディープニューラルネットワークを利用して生波形から直接コンパクトな音声指紋を学習している。
これらの手法は制御条件下では良好に動作しますが、ノイズの多い環境でモバイルデバイスを介してオーディオをキャプチャする現実のシナリオでは、その精度は大幅に低下します。
本稿では,このような実環境をよりよく反映する新しい評価プロトコルを提案する。
我々は同じ音声の3つの録音を生成し、それぞれが、モバイルデバイスのマイクを使って撮影されるノイズレベルを増大させる。
このプロトコルでは,2つの最新のCNNベースモデルに対して,以前報告したベンチマークと比較すると,大幅な性能低下がみられた。
さらに、対照的な損失を伴うトレーニングにおいて、拡張パイプラインが果たす重要な役割を強調します。
拡張パイプラインに低域通過フィルタと高域通過フィルタを導入することにより,提案した評価において両システムの性能を著しく向上させる。
さらに,プロジェクションモジュールを調整したトランスフォーマーモデルを開発し,意味的に関連するドメインから知識を伝達することで,より堅牢な解が得られることを示す。
トランスアーキテクチャは、すべてのノイズレベル、クエリ時間でCNNベースのモデルより優れています。
低雑音条件下では、1秒クエリで47.99%、正しい曲を見つける場合10秒クエリで97%、それぞれ14%を超え、18.5%の低雑音環境では15秒クエリで56.5%となる。
すべての実験は100万曲以上の大規模なデータセットで行われ、クエリは5500万ベクトルのデータベースと一致している。
関連論文リスト
- End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning [1.024113475677323]
本研究では,従来のノイズキャンセリング手法の優れた代替手段として,ディープニューラルネットワーク(DNN)の利用について検討する。
ConvTasNETネットワークは、WHAM!、LibriMix、MS-2023 DNS Challengeなどのデータセットでトレーニングされた。
高サンプリングレート(48kHz)でトレーニングされたモデルは、トータル・ハーモニック・ディストーション(THD)と生成ニューラルコーデック(WARP-Q)の値に対するはるかに優れた評価指標を提供した。
論文 参考訳(メタデータ) (2024-05-30T16:20:44Z) - Collaborative Learning with a Drone Orchestrator [79.75113006257872]
インテリジェントな無線デバイス群は、ドローンの助けを借りて共有ニューラルネットワークモデルを訓練する。
提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間の平均24%と87%の削減を実現している。
論文 参考訳(メタデータ) (2023-03-03T23:46:25Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Deep Learning-Based Acoustic Mosquito Detection in Noisy Conditions
Using Trainable Kernels and Augmentations [17.77602155559703]
本研究では,事前処理手法を深層学習モデルに融合させることにより,音声機械学習手法の有効性を高めるための独自のレシピを示す。
本ソリューションは,音声信号から信頼性の高い蚊検出装置を構築するために,コストのかかるランダム検索ではなく,トレーニングによってハイパーパラメータを最適化することにより,トレーニングと推論性能を向上する。
論文 参考訳(メタデータ) (2022-07-28T01:05:40Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。