論文の概要: Reassessing Noise Augmentation Methods in the Context of Adversarial Speech
- arxiv url: http://arxiv.org/abs/2409.01813v1
- Date: Tue, 3 Sep 2024 11:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:47:58.136537
- Title: Reassessing Noise Augmentation Methods in the Context of Adversarial Speech
- Title(参考訳): 対立音声の文脈における雑音増強手法の再評価
- Authors: Karla Pizzi, Matías P. Pizarro B, Asja Fischer,
- Abstract要約: 自動音声認識システムにおいて,雑音増進学習が対向的堅牢性を同時に改善できるかどうかを検討する。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
- 参考スコア(独自算出の注目度): 12.488332326259469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we investigate if noise-augmented training can concurrently improve adversarial robustness in automatic speech recognition (ASR) systems. We conduct a comparative analysis of the adversarial robustness of four different state-of-the-art ASR architectures, where each of the ASR architectures is trained under three different augmentation conditions: one subject to background noise, speed variations, and reverberations, another subject to speed variations only, and a third without any form of data augmentation. The results demonstrate that noise augmentation not only improves model performance on noisy speech but also the model's robustness to adversarial attacks.
- Abstract(参考訳): 本研究では,自動音声認識(ASR)システムにおいて,雑音増強訓練が対向的頑健性を同時に改善できるかどうかを検討する。
ASRアーキテクチャは、背景雑音、速度変動、残響の3つの異なる拡張条件下で訓練され、もう1つは速度変化のみのものであり、もう1つはデータ拡張の形式を持たないものである。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
関連論文リスト
- An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples [2.2866551516539726]
実効性のある音声ファイルが生成され、認識性や頑健性に関して微調整される。
本稿では,心理音響モデルと室内インパルス応答(RIR)を用いた統合アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-05T06:59:09Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - An Investigation of End-to-End Models for Robust Speech Recognition [20.998349142078805]
本稿では,頑健な音声認識のための音声強調に基づく手法と3つの異なるモデルに基づく適応手法の比較を行う。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
論文 参考訳(メタデータ) (2021-02-11T19:47:13Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。