論文の概要: Music Augmentation and Denoising For Peak-Based Audio Fingerprinting
- arxiv url: http://arxiv.org/abs/2310.13388v1
- Date: Fri, 20 Oct 2023 09:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:24:37.121825
- Title: Music Augmentation and Denoising For Peak-Based Audio Fingerprinting
- Title(参考訳): ピークベース音声フィンガープリンティングのための音楽拡張と雑音除去
- Authors: Kamil Akesbi, Dorian Desblancs, Benjamin Martin
- Abstract要約: 我々は,音楽スニペットにノイズを加える新しいオーディオ拡張パイプラインを現実的に導入し,リリースする。
次に、スペクトルからノイズの多い成分を除去するディープラーニングモデルを提案し、リリースする。
ノイズ条件下であっても,本モデルの追加により,一般的な音声指紋認証システムの識別性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio fingerprinting is a well-established solution for song identification
from short recording excerpts. Popular methods rely on the extraction of sparse
representations, generally spectral peaks, and have proven to be accurate,
fast, and scalable to large collections. However, real-world applications of
audio identification often happen in noisy environments, which can cause these
systems to fail. In this work, we tackle this problem by introducing and
releasing a new audio augmentation pipeline that adds noise to music snippets
in a realistic way, by stochastically mimicking real-world scenarios. We then
propose and release a deep learning model that removes noisy components from
spectrograms in order to improve peak-based fingerprinting systems' accuracy.
We show that the addition of our model improves the identification performance
of commonly used audio fingerprinting systems, even under noisy conditions.
- Abstract(参考訳): オーディオフィンガープリントは、短い録音の抜粋から曲を識別するための確立されたソリューションである。
一般的な方法はスパース表現(一般的にスペクトルピーク)の抽出に依存しており、大規模なコレクションに対して正確で高速でスケーラブルであることが証明されている。
しかし、実世界の音声識別の応用はしばしばノイズの多い環境で行われ、これらのシステムが故障する可能性がある。
本研究では,実際のシナリオを統計的に模倣することにより,音楽スニペットにノイズを加える新たなオーディオ拡張パイプラインを導入して,この問題に対処する。
次に,ピークベース指紋認証システムの精度を向上させるため,スペクトルからノイズ成分を除去するディープラーニングモデルを提案する。
提案モデルの付加により, 騒音環境下においても, 一般的な音声フィンガープリンティングシステムの識別性能が向上することを示す。
関連論文リスト
- Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges [0.0]
本研究では,AIとMLを統合した音声フィンガープリントアルゴリズムを提案する。
性能評価は、5秒の音声入力で100%精度が保証される。
本研究は音声フィンガープリントの適応性を向上し,様々な環境や応用における課題に対処する。
論文 参考訳(メタデータ) (2024-02-21T17:37:30Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Audio Denoising for Robust Audio Fingerprinting [0.0]
音楽発見サービスでは、ユーザーは短いモバイル録音から曲を識別できる。
これらの解は、多くの歪みに対して堅牢なスペクトルピークの抽出に特に依存する。
実環境で捉えた背景雑音に対するこれらのアルゴリズムの堅牢性を研究するための研究はほとんど行われていない。
論文 参考訳(メタデータ) (2022-12-21T09:46:12Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。