論文の概要: Audio Defect Detection in Music with Deep Networks
- arxiv url: http://arxiv.org/abs/2202.05718v1
- Date: Fri, 11 Feb 2022 15:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 20:46:29.297619
- Title: Audio Defect Detection in Music with Deep Networks
- Title(参考訳): ディープネットワークによる音楽の音響欠陥検出
- Authors: Daniel Wolff, R\'emi Mignot and Axel Roebel
- Abstract要約: 一般的な音楽コールのクリックなどのアーティファクトを、データ中心でコンテキストに敏感な検出ソリューションとして使用すること。
本稿では、エンド・ツー・エンドのエンコーダ・デコーダの構成に従って畳み込みネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 8.680081568962997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With increasing amounts of music being digitally transferred from production
to distribution, automatic means of determining media quality are needed.
Protection mechanisms in digital audio processing tools have not eliminated the
need of production entities located downstream the distribution chain to assess
audio quality and detect defects inserted further upstream. Such analysis often
relies on the received audio and scarce meta-data alone. Deliberate use of
artefacts such as clicks in popular music as well as more recent defects
stemming from corruption in modern audio encodings call for data-centric and
context sensitive solutions for detection. We present a convolutional network
architecture following end-to-end encoder decoder configuration to develop
detectors for two exemplary audio defects. A click detector is trained and
compared to a traditional signal processing method, with a discussion on
context sensitivity. Additional post-processing is used for data augmentation
and workflow simulation. The ability of our models to capture variance is
explored in a detector for artefacts from decompression of corrupted MP3
compressed audio. For both tasks we describe the synthetic generation of
artefacts for controlled detector training and evaluation. We evaluate our
detectors on the large open-source Free Music Archive (FMA) and genre-specific
datasets.
- Abstract(参考訳): 生産から流通へデジタル転送される音楽量の増加に伴い、メディア品質を決定する自動手段が必要である。
デジタルオーディオ処理ツールにおける保護機構は、オーディオ品質を評価し、上流に挿入された欠陥を検出するために、配信チェーン下流に位置する生産エンティティの必要性を排除していない。
このような分析は、受信した音声と少ないメタデータのみに依存することが多い。
ポピュラー音楽のクリックや、最近のオーディオエンコーディングの破損に起因する欠陥などのアーティファクトの再検討は、検出のためのデータ中心でコンテキストに敏感なソリューションを呼び起こす。
本稿では,エンドツーエンドエンコーダデコーダの構成に従う畳み込みネットワークアーキテクチャを提案する。
クリック検出器を訓練し、従来の信号処理方法と比較し、コンテキストの感度について議論する。
追加の処理は、データ拡張とワークフローシミュレーションに使用される。
劣化したMP3圧縮音声の圧縮から人工物を検出するために, モデルが分散を捉える能力について検討した。
両タスクにおいて、制御された検出器トレーニングと評価のための人工人工物の生成について述べる。
我々は、大規模なオープンソースFree Music Archive (FMA) とジャンル別データセットを用いて、検知器の評価を行った。
関連論文リスト
- Analyzing the Impact of Splicing Artifacts in Partially Fake Speech Signals [15.595136769477614]
我々は,信号の結合による音声トラックの解析を行い,それらのアーティファクトを調査し,既存のデータセットにバイアスが生じているかどうかを評価する。
その結果,スプライシングアーティファクトを解析することにより,ArialSpoofデータセットとHADデータセットでそれぞれ6.16%,7.36%のEERを検出できることがわかった。
論文 参考訳(メタデータ) (2024-08-25T09:28:04Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Edge Storage Management Recipe with Zero-Shot Data Compression for Road
Anomaly Detection [1.4563998247782686]
本研究では,高忠実度音声を保存しながら,効率的なストレージ管理手法を提案する。
収集した高解像度オーディオをコンパクトなコードに符号化する計算ファイル圧縮手法を推奨する。
そこで本研究では,単純かつ効果的なオートエンコーダに基づくデータ圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T01:30:21Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - A Robust and Explainable Data-Driven Anomaly Detection Approach For
Power Electronics [56.86150790999639]
本稿では,2つの異常検出・分類手法,すなわち行列プロファイルアルゴリズムと異常変換器を提案する。
行列プロファイルアルゴリズムは、ストリーミング時系列データにおけるリアルタイム異常を検出するための一般化可能なアプローチとして適している。
検知器の感度、リコール、検出精度を調整するために、一連のカスタムフィルタが作成され、追加される。
論文 参考訳(メタデータ) (2022-09-23T06:09:35Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。