論文の概要: Robust Automatic Speech Recognition via WavAugment Guided Phoneme
Adversarial Training
- arxiv url: http://arxiv.org/abs/2307.12498v1
- Date: Mon, 24 Jul 2023 03:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:52:26.247225
- Title: Robust Automatic Speech Recognition via WavAugment Guided Phoneme
Adversarial Training
- Title(参考訳): wavaugment guided phoneme adversarial trainingによるロバスト自動音声認識
- Authors: Gege Qi, Yuefeng Chen, Xiaofeng Mao, Xiaojun Jia, Ranjie Duan, Rong
Zhang, Hui Xue
- Abstract要約: 我々は,WavAugment Guided Phoneme Adrial Training (wapat)を提案する。
Wapatは音素空間の逆例を拡張として使用し、音素表現の小さなゆらぎにモデルを不変にします。
さらに、Wapatは、拡張サンプルの音素表現を利用して、敵の生成を誘導し、より安定で多様な勾配方向を見つけるのに役立つ。
- 参考スコア(独自算出の注目度): 20.33516009339207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing a practically-robust automatic speech recognition (ASR) is
challenging since the model should not only maintain the original performance
on clean samples, but also achieve consistent efficacy under small volume
perturbations and large domain shifts. To address this problem, we propose a
novel WavAugment Guided Phoneme Adversarial Training (wapat). wapat use
adversarial examples in phoneme space as augmentation to make the model
invariant to minor fluctuations in phoneme representation and preserve the
performance on clean samples. In addition, wapat utilizes the phoneme
representation of augmented samples to guide the generation of adversaries,
which helps to find more stable and diverse gradient-directions, resulting in
improved generalization. Extensive experiments demonstrate the effectiveness of
wapat on End-to-end Speech Challenge Benchmark (ESB). Notably, SpeechLM-wapat
outperforms the original model by 6.28% WER reduction on ESB, achieving the new
state-of-the-art.
- Abstract(参考訳): クリーンなサンプルで元の性能を維持するだけでなく、少量の摂動と大きな領域シフトで一貫した有効性を達成するため、実質的にロバストな自動音声認識(asr)の開発は困難である。
そこで本研究では,WavAugment Guided Phoneme Adversarial Training (wapat)を提案する。
Wapatは音素空間の逆例を拡張として使用し、音素表現の小さな変動にモデルを不変にし、クリーンなサンプルの性能を維持する。
さらに, 拡張サンプルの音素表現を利用して, 敵生成を導くことにより, より安定で多様な勾配方向を見つけることができ, 一般化が向上する。
広範な実験により、エンドツーエンド音声チャレンジベンチマーク(esb)におけるwapatの有効性が実証された。
特に speechlm-wapat は、esb のオリジナルのモデルを 6.28% 削減し、新しい最先端を実現した。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。