論文の概要: Audio Denoising for Robust Audio Fingerprinting
- arxiv url: http://arxiv.org/abs/2212.11277v1
- Date: Wed, 21 Dec 2022 09:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:29:24.031359
- Title: Audio Denoising for Robust Audio Fingerprinting
- Title(参考訳): ロバストなオーディオフィンガープリントのためのオーディオデニュージング
- Authors: Kamil Akesbi
- Abstract要約: 音楽発見サービスでは、ユーザーは短いモバイル録音から曲を識別できる。
これらの解は、多くの歪みに対して堅牢なスペクトルピークの抽出に特に依存する。
実環境で捉えた背景雑音に対するこれらのアルゴリズムの堅牢性を研究するための研究はほとんど行われていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music discovery services let users identify songs from short mobile
recordings. These solutions are often based on Audio Fingerprinting, and rely
more specifically on the extraction of spectral peaks in order to be robust to
a number of distortions. Few works have been done to study the robustness of
these algorithms to background noise captured in real environments. In
particular, AFP systems still struggle when the signal to noise ratio is low,
i.e when the background noise is strong. In this project, we tackle this
problematic with Deep Learning. We test a new hybrid strategy which consists of
inserting a denoising DL model in front of a peak-based AFP algorithm. We
simulate noisy music recordings using a realistic data augmentation pipeline,
and train a DL model to denoise them. The denoising model limits the impact of
background noise on the AFP system's extracted peaks, improving its robustness
to noise. We further propose a novel loss function to adapt the DL model to the
considered AFP system, increasing its precision in terms of retrieved spectral
peaks. To the best of our knowledge, this hybrid strategy has not been tested
before.
- Abstract(参考訳): 音楽発見サービスは、短いモバイル録音から曲を識別する。
これらの解は、しばしば音声フィンガープリントに基づいており、より具体的にスペクトルピークの抽出に依存して、多くの歪みに頑健である。
実環境における背景雑音に対するこれらのアルゴリズムのロバスト性の研究は、ほとんど行われていない。
特にAFPシステムは、ノイズ比が低い場合、すなわち背景雑音が強い場合、依然として苦戦している。
このプロジェクトでは、Deep Learningでこの問題に取り組みます。
そこで我々は,ピークベースAFPアルゴリズムの前に記述型DLモデルを挿入するハイブリッド手法を提案する。
実データ拡張パイプラインを用いてノイズのある音楽録音をシミュレートし、dlモデルを訓練して雑音を解消する。
雑音モデルでは,afpシステムの抽出ピークに対する背景雑音の影響が制限され,雑音に対するロバスト性が向上した。
さらに,検討されたAFPシステムにDLモデルを適応させる新たな損失関数を提案する。
私たちの知る限りでは、このハイブリッド戦略はこれまでテストされていない。
関連論文リスト
- CheapNET: Improving Light-weight speech enhancement network by projected
loss function [0.8192907805418583]
我々は,MSEから分岐した新しい投射損失関数を導入し,雑音抑制を向上する。
エコーキャンセリングのために、この関数はLAEC事前処理された出力の直接予測を可能にする。
ノイズ抑制モデルは,3.1Mパラメータと0.4GFlops/s計算負荷のみを用いて,ほぼ最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T16:03:42Z) - Music Augmentation and Denoising For Peak-Based Audio Fingerprinting [0.0]
我々は,音楽スニペットにノイズを加える新しいオーディオ拡張パイプラインを現実的に導入し,リリースする。
次に、スペクトルからノイズの多い成分を除去するディープラーニングモデルを提案し、リリースする。
ノイズ条件下であっても,本モデルの追加により,一般的な音声指紋認証システムの識別性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T09:56:22Z) - Physics-guided Noise Neural Proxy for Practical Low-light Raw Image
Denoising [22.11250276261829]
近年,低照度生画像復調訓練の主流は,合成データの利用に移行している。
実世界のセンサのノイズ分布を特徴付けるノイズモデリングは,合成データの有効性と実用性に大きな影響を及ぼす。
そこで本研究では,実データではなく,暗黒フレームからノイズモデルを学習し,データ依存を分解する手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T14:14:43Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Removing Noise from Extracellular Neural Recordings Using Fully
Convolutional Denoising Autoencoders [62.997667081978825]
ノイズの多いマルチチャネル入力からクリーンなニューロン活動信号を生成することを学習する完全畳み込みデノイングオートエンコーダを提案する。
シミュレーションデータを用いた実験結果から,提案手法はノイズ崩壊型ニューラルネットワークの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-18T14:51:24Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。