論文の概要: Revisiting Acoustic Features for Robust ASR
- arxiv url: http://arxiv.org/abs/2409.16399v1
- Date: Tue, 24 Sep 2024 18:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:31:10.184011
- Title: Revisiting Acoustic Features for Robust ASR
- Title(参考訳): ロバストASRの音響特性の再検討
- Authors: Muhammad A. Shah, Bhiksha Raj,
- Abstract要約: 生物学的聴覚知覚に触発された音響特性を発達させる先行研究のアプローチを再考する。
本研究では、周波数マスキングと側方抑制の神経心理学的現象をシミュレートするために、周波数マスキング分光法(FreqMask)とガンマトン分光法(DoGSpec)の相違という2つの新しい音響特性を提案する。
- 参考スコア(独自算出の注目度): 25.687120601256787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems must be robust to the myriad types of noises present in real-world environments including environmental noise, room impulse response, special effects as well as attacks by malicious actors (adversarial attacks). Recent works seek to improve accuracy and robustness by developing novel Deep Neural Networks (DNNs) and curating diverse training datasets for them, while using relatively simple acoustic features. While this approach improves robustness to the types of noise present in the training data, it confers limited robustness against unseen noises and negligible robustness to adversarial attacks. In this paper, we revisit the approach of earlier works that developed acoustic features inspired by biological auditory perception that could be used to perform accurate and robust ASR. In contrast, Specifically, we evaluate the ASR accuracy and robustness of several biologically inspired acoustic features. In addition to several features from prior works, such as gammatone filterbank features (GammSpec), we also propose two new acoustic features called frequency masked spectrogram (FreqMask) and difference of gammatones spectrogram (DoGSpec) to simulate the neuro-psychological phenomena of frequency masking and lateral suppression. Experiments on diverse models and datasets show that (1) DoGSpec achieves significantly better robustness than the highly popular log mel spectrogram (LogMelSpec) with minimal accuracy degradation, and (2) GammSpec achieves better accuracy and robustness to non-adversarial noises from the Speech Robust Bench benchmark, but it is outperformed by DoGSpec against adversarial attacks.
- Abstract(参考訳): 自動音声認識(ASR)システムは、環境騒音、室内インパルス応答、特殊効果、悪意あるアクターによる攻撃(敵攻撃)など、現実の環境に存在する無数のノイズに対して堅牢でなければならない。
最近の研究は、新しいディープニューラルネットワーク(DNN)を開発し、それらのための多様なトレーニングデータセットをキュレートすることで、比較的単純な音響的特徴を使用しながら、精度と堅牢性の向上を目指している。
このアプローチは、トレーニングデータに存在するノイズの種類に対するロバスト性を改善するが、目に見えないノイズに対する限られたロバスト性と、敵の攻撃に対する無視可能なロバスト性を与える。
本稿では,生物の聴覚知覚にインスパイアされた音響特性を発達させた先行研究のアプローチを再考する。
対照的に, バイオインスパイアされた音響特性のASR精度とロバスト性を評価する。
ガンマトンフィルタバンクの特徴 (GammSpec) などの先行研究の特徴に加えて,周波数マスク分光法 (FreqMask) とガンマトン分光法 (DoGSpec) という2つの新しい音響特性を提案し,周波数マスキングと側方抑制の神経心理学的現象をシミュレートした。
多様なモデルとデータセットを用いた実験により,(1)DoGSpecは高い精度でログメル分光器(LogMelSpec)よりもはるかに優れたロバスト性を実現し,(2)GammSpecはSpeech Robust Benchベンチマークによる非対向雑音に対する精度とロバスト性を達成するが,DoGSpecは対向攻撃に対して優れていた。
関連論文リスト
- A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - DEMONet: Underwater Acoustic Target Recognition based on Multi-Expert Network and Cross-Temporal Variational Autoencoder [22.271499386492533]
複雑な水中環境のため、実世界のシナリオで堅牢な水中音響認識システムを構築することは困難である。
ノイズの封筒変調(DEMON)を検出することで,ターゲットのシャフト周波数やブレード数に対するロバストな洞察を提供するDEMONetを提案する。
DEMON特徴量におけるノイズとスプリアス変調スペクトルを緩和するために、時間的アライメント戦略を導入し、ノイズ耐性のDEMONスペクトルを再構成して生のDEMON特徴量を置き換えるために可変オートエンコーダ(VAE)を用いる。
論文 参考訳(メタデータ) (2024-11-05T03:04:51Z) - Filtered Randomized Smoothing: A New Defense for Robust Modulation Classification [16.974803642923465]
我々は、任意の攻撃に対して証明可能な防御を提供するロバストな変調分類器を設計する問題について検討する。
スペクトルフィルタリングとランダムな平滑化を組み合わせた新しい防御法であるフィルタランダム化平滑化(FRS)を提案する。
FRSは攻撃信号と良性信号の両方の精度において,ATやRSを含む既存の防御よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-10-08T20:17:25Z) - Evaluating ML Robustness in GNSS Interference Classification, Characterization & Localization [42.14439854721613]
ジャミング装置はグローバルナビゲーション衛星システム(GNSS)からの信号を妨害する
本稿では、低周波アンテナから得られたスナップショットからなる広範囲なデータセットを提案する。
本研究の目的は,機械学習モデル(ML)の環境変化に対するレジリエンスを評価することである。
論文 参考訳(メタデータ) (2024-09-23T15:20:33Z) - Leveraging Domain Features for Detecting Adversarial Attacks Against
Deep Speech Recognition in Noise [18.19207291891767]
ディープASRシステムに対する敵攻撃は非常に成功している。
この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。
逆フィルタバンクの機能は、クリーンな環境とノイズの多い環境の両方でよく機能する。
論文 参考訳(メタデータ) (2022-11-03T07:25:45Z) - SAR Despeckling using a Denoising Diffusion Probabilistic Model [52.25981472415249]
スペックルの存在は画像品質を劣化させ、SAR画像理解アプリケーションの性能に悪影響を及ぼす。
本稿では,SAR脱種のための拡散確率モデルであるSAR-DDPMを紹介する。
提案手法は, 最先端の切り離し法と比較して, 定量化と定性化の両面で有意な改善を実現している。
論文 参考訳(メタデータ) (2022-06-09T14:00:26Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Certified Adversarial Defenses Meet Out-of-Distribution Corruptions:
Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。
本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。
また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文 参考訳(メタデータ) (2021-12-01T17:11:22Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。