論文の概要: Spectrum Correction: Acoustic Scene Classification with Mismatched
Recording Devices
- arxiv url: http://arxiv.org/abs/2105.11856v1
- Date: Tue, 25 May 2021 11:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:39:01.803521
- Title: Spectrum Correction: Acoustic Scene Classification with Mismatched
Recording Devices
- Title(参考訳): スペクトル補正:ミスマッチ記録装置を用いた音響シーン分類
- Authors: Micha{\l} Ko\'smider
- Abstract要約: 機械学習アルゴリズムは、限られたデバイスからのオーディオ録音で訓練された場合、周波数応答の異なる他のデバイスを使用して記録されたサンプルにうまく一般化できない可能性がある。
本研究では,この問題に対処するための比較的簡単な手法を提案する。
このアプローチの2つのバリエーションが提示される。まず、複数のデバイスからの整列した例を必要とし、次に、この要件を緩和する。
- 参考スコア(独自算出の注目度): 9.404066316241051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning algorithms, when trained on audio recordings from a limited
set of devices, may not generalize well to samples recorded using other devices
with different frequency responses. In this work, a relatively straightforward
method is introduced to address this problem. Two variants of the approach are
presented. First requires aligned examples from multiple devices, the second
approach alleviates this requirement. This method works for both time and
frequency domain representations of audio recordings. Further, a relation to
standardization and Cepstral Mean Subtraction is analysed. The proposed
approach becomes effective even when very few examples are provided. This
method was developed during the Detection and Classification of Acoustic Scenes
and Events (DCASE) 2019 challenge and won the 1st place in the scenario with
mis-matched recording devices with the accuracy of 75%. Source code for the
experiments can be found online.
- Abstract(参考訳): 機械学習アルゴリズムは、限られたセットのデバイスからオーディオ録音を訓練する場合、異なる周波数応答を持つ他のデバイスで記録されたサンプルにうまく一般化できない可能性がある。
本研究では,この問題に対処するための比較的簡単な手法を提案する。
アプローチには2つのバリエーションがある。
まず、複数のデバイスからの整列した例を必要とする。
この方法は、音声記録の時間領域と周波数領域の表現の両方で機能する。
さらに、標準化とセプストラム平均減算との関係を解析する。
提案手法は,ごく少数の例が提供されても有効である。
本手法は,2019年の音響シーンとイベントの検出と分類(dcase)中に開発され,75%の精度でミスマッチ記録装置を用いたシナリオで1位となった。
実験のソースコードはオンラインで見ることができる。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks [6.570712059945705]
同一人物の様々な音声サンプルを組み合わせることで、拘束フォージェリーを作成することができる。
オーディオスプライシングの既存の検出アルゴリズムは手作りの機能を使用し、特定の仮定を行う。
本研究では,検出とローカライゼーションをスプライシングするTransformer sequence-to-sequence (seq2seq) ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T13:57:16Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Learning to Adapt to Domain Shifts with Few-shot Samples in Anomalous
Sound Detection [7.631596468553607]
異常検出は、産業機器の監視など、多くの重要な応用がある。
サンプルの少ない新しい条件に適応するフレームワークを提案する。
提案手法は,最近リリースされた各種機械の音響測定データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-05T00:22:25Z) - Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices
using squeeze-excitation technique and low-complexity constraint [4.4973334555746]
音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。
本報告のサブタスクは、モデルの複雑さによって制約されるASC問題に対応する。
具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-07-30T14:24:45Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。