論文の概要: Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation
- arxiv url: http://arxiv.org/abs/2305.07499v2
- Date: Tue, 27 Jun 2023 08:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:56:42.592557
- Title: Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation
- Title(参考訳): インパルス応答強化によるデバイスロバスト音響シーン分類
- Authors: Tobias Morocutti, Florian Schmid, Khaled Koutini, Gerhard Widmer
- Abstract要約: CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果について検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様に動作することがわかった。
また、DIR増幅とFreq-MixStyleは相補的であり、トレーニング中に見えないデバイスによって記録された信号に対して、新しい最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 5.887969742827488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to generalize to a wide range of recording devices is a crucial
performance factor for audio classification models. The characteristics of
different types of microphones introduce distributional shifts in the digitized
audio signals due to their varying frequency responses. If this domain shift is
not taken into account during training, the model's performance could degrade
severely when it is applied to signals recorded by unseen devices. In
particular, training a model on audio signals recorded with a small number of
different microphones can make generalization to unseen devices difficult. To
tackle this problem, we convolve audio signals in the training set with
pre-recorded device impulse responses (DIRs) to artificially increase the
diversity of recording devices. We systematically study the effect of DIR
augmentation on the task of Acoustic Scene Classification using CNNs and Audio
Spectrogram Transformers. The results show that DIR augmentation in isolation
performs similarly to the state-of-the-art method Freq-MixStyle. However, we
also show that DIR augmentation and Freq-MixStyle are complementary, achieving
a new state-of-the-art performance on signals recorded by devices unseen during
training.
- Abstract(参考訳): 幅広い記録装置に一般化できる能力は、オーディオ分類モデルにとって重要な性能要因である。
異なるタイプのマイクロホンの特性は、周波数応答の変化によるディジタル化音声信号の分布変化をもたらす。
このドメインシフトがトレーニング中に考慮されない場合、未知のデバイスによって記録された信号に適用された場合、モデルの性能は著しく低下する可能性がある。
特に、少数の異なるマイクで記録された音声信号のモデルを訓練することは、見えないデバイスへの一般化を難しくする。
この問題に対処するために,事前記録されたデバイスインパルス応答(dirs)をトレーニングセットに音声信号を畳み込み,録音装置の多様性を人工的に向上させる。
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果を系統的に検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様の動作を示した。
しかし,dir拡張とfreq-mixstyleは相補的であり,訓練中は検出されない信号に対して新たな最先端性能を実現する。
関連論文リスト
- Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation [0.0]
本稿では,デバイス変動に対する音響イベント分類システムのレジリエンスを高めるための統合生成フレームワークを提案する。
提案手法は最先端の手法を2.6%向上させ, マクロ平均F1スコアの変動率を0.8%低減する。
論文 参考訳(メタデータ) (2024-10-23T23:10:09Z) - Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - Microphone Conversion: Mitigating Device Variability in Sound Event
Classification [0.0]
本稿では,CycleGANを用いたデバイス変動に対する音事象分類(SEC)システムのレジリエンスを高めるための新しい拡張手法を提案する。
本手法は,入力スペクトログラムを異なるデバイスに記録したかのように変換することで,トレーニングデータの限られたデバイス多様性に対処する。
論文 参考訳(メタデータ) (2024-01-12T21:59:01Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。