論文の概要: Revisiting Acoustic Features for Robust ASR
- arxiv url: http://arxiv.org/abs/2409.16399v1
- Date: Tue, 24 Sep 2024 18:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:31:10.184011
- Title: Revisiting Acoustic Features for Robust ASR
- Title(参考訳): ロバストASRの音響特性の再検討
- Authors: Muhammad A. Shah, Bhiksha Raj,
- Abstract要約: 生物学的聴覚知覚に触発された音響特性を発達させる先行研究のアプローチを再考する。
本研究では、周波数マスキングと側方抑制の神経心理学的現象をシミュレートするために、周波数マスキング分光法(FreqMask)とガンマトン分光法(DoGSpec)の相違という2つの新しい音響特性を提案する。
- 参考スコア(独自算出の注目度): 25.687120601256787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems must be robust to the myriad types of noises present in real-world environments including environmental noise, room impulse response, special effects as well as attacks by malicious actors (adversarial attacks). Recent works seek to improve accuracy and robustness by developing novel Deep Neural Networks (DNNs) and curating diverse training datasets for them, while using relatively simple acoustic features. While this approach improves robustness to the types of noise present in the training data, it confers limited robustness against unseen noises and negligible robustness to adversarial attacks. In this paper, we revisit the approach of earlier works that developed acoustic features inspired by biological auditory perception that could be used to perform accurate and robust ASR. In contrast, Specifically, we evaluate the ASR accuracy and robustness of several biologically inspired acoustic features. In addition to several features from prior works, such as gammatone filterbank features (GammSpec), we also propose two new acoustic features called frequency masked spectrogram (FreqMask) and difference of gammatones spectrogram (DoGSpec) to simulate the neuro-psychological phenomena of frequency masking and lateral suppression. Experiments on diverse models and datasets show that (1) DoGSpec achieves significantly better robustness than the highly popular log mel spectrogram (LogMelSpec) with minimal accuracy degradation, and (2) GammSpec achieves better accuracy and robustness to non-adversarial noises from the Speech Robust Bench benchmark, but it is outperformed by DoGSpec against adversarial attacks.
- Abstract(参考訳): 自動音声認識(ASR)システムは、環境騒音、室内インパルス応答、特殊効果、悪意あるアクターによる攻撃(敵攻撃)など、現実の環境に存在する無数のノイズに対して堅牢でなければならない。
最近の研究は、新しいディープニューラルネットワーク(DNN)を開発し、それらのための多様なトレーニングデータセットをキュレートすることで、比較的単純な音響的特徴を使用しながら、精度と堅牢性の向上を目指している。
このアプローチは、トレーニングデータに存在するノイズの種類に対するロバスト性を改善するが、目に見えないノイズに対する限られたロバスト性と、敵の攻撃に対する無視可能なロバスト性を与える。
本稿では,生物の聴覚知覚にインスパイアされた音響特性を発達させた先行研究のアプローチを再考する。
対照的に, バイオインスパイアされた音響特性のASR精度とロバスト性を評価する。
ガンマトンフィルタバンクの特徴 (GammSpec) などの先行研究の特徴に加えて,周波数マスク分光法 (FreqMask) とガンマトン分光法 (DoGSpec) という2つの新しい音響特性を提案し,周波数マスキングと側方抑制の神経心理学的現象をシミュレートした。
多様なモデルとデータセットを用いた実験により,(1)DoGSpecは高い精度でログメル分光器(LogMelSpec)よりもはるかに優れたロバスト性を実現し,(2)GammSpecはSpeech Robust Benchベンチマークによる非対向雑音に対する精度とロバスト性を達成するが,DoGSpecは対向攻撃に対して優れていた。
関連論文リスト
- Low-Frequency Black-Box Backdoor Attack via Evolutionary Algorithm [12.711880028935315]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクで成功したが、バックドア攻撃に弱い。
周波数スペクトルの低周波成分を最小限に摂動させる強力な低周波ブラックボックスバックドアアタック(LFBA)を提案する。
実世界のデータセットの実験は、画像処理操作と最先端のバックドア防御に対するLFBAの有効性と堅牢性を検証する。
論文 参考訳(メタデータ) (2024-02-23T23:36:36Z) - Hyperspectral Image Denoising via Self-Modulating Convolutional Neural
Networks [15.700048595212051]
相関スペクトルと空間情報を利用した自己変調畳み込みニューラルネットワークを提案する。
モデルの中心には新しいブロックがあり、隣り合うスペクトルデータに基づいて、ネットワークが適応的に特徴を変換することができる。
合成データと実データの両方の実験解析により,提案したSM-CNNは,他の最先端HSI復調法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-15T06:57:43Z) - A Spectral Perspective towards Understanding and Improving Adversarial
Robustness [8.912245110734334]
対人訓練(AT)は効果的な防御手法であることが証明されているが、堅牢性向上のメカニズムは十分に理解されていない。
我々は、ATは、形状バイアスのある表現を保持する低周波領域にもっと焦点を合わせ、堅牢性を得るよう深層モデルに誘導することを示す。
本稿では,攻撃された逆入力によって推定されるスペクトル出力が,その自然な入力に可能な限り近いスペクトルアライメント正則化(SAR)を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:47:03Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Leveraging Domain Features for Detecting Adversarial Attacks Against
Deep Speech Recognition in Noise [18.19207291891767]
ディープASRシステムに対する敵攻撃は非常に成功している。
この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。
逆フィルタバンクの機能は、クリーンな環境とノイズの多い環境の両方でよく機能する。
論文 参考訳(メタデータ) (2022-11-03T07:25:45Z) - SAR Despeckling using a Denoising Diffusion Probabilistic Model [52.25981472415249]
スペックルの存在は画像品質を劣化させ、SAR画像理解アプリケーションの性能に悪影響を及ぼす。
本稿では,SAR脱種のための拡散確率モデルであるSAR-DDPMを紹介する。
提案手法は, 最先端の切り離し法と比較して, 定量化と定性化の両面で有意な改善を実現している。
論文 参考訳(メタデータ) (2022-06-09T14:00:26Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Robustifying automatic speech recognition by extracting slowly varying
features [20.96846497286073]
敵攻撃に対する防御機構を提案する。
このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。
本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文 参考訳(メタデータ) (2021-12-14T13:50:23Z) - Certified Adversarial Defenses Meet Out-of-Distribution Corruptions:
Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。
本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。
また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文 参考訳(メタデータ) (2021-12-01T17:11:22Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。