論文の概要: MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2102.12664v1
- Date: Thu, 25 Feb 2021 03:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:44:50.255837
- Title: MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition
- Title(参考訳): MixSpeech: 低リソース自動音声認識のためのデータ拡張
- Authors: Linghui Meng, Jin Xu, Xu Tan, Jindong Wang, Tao Qin, Bo Xu
- Abstract要約: MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 54.84624870942339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose MixSpeech, a simple yet effective data augmentation
method based on mixup for automatic speech recognition (ASR). MixSpeech trains
an ASR model by taking a weighted combination of two different speech features
(e.g., mel-spectrograms or MFCC) as the input, and recognizing both text
sequences, where the two recognition losses use the same combination weight. We
apply MixSpeech on two popular end-to-end speech recognition models including
LAS (Listen, Attend and Spell) and Transformer, and conduct experiments on
several low-resource datasets including TIMIT, WSJ, and HKUST. Experimental
results show that MixSpeech achieves better accuracy than the baseline models
without data augmentation, and outperforms a strong data augmentation method
SpecAugment on these recognition tasks. Specifically, MixSpeech outperforms
SpecAugment with a relative PER improvement of 10.6$\%$ on TIMIT dataset, and
achieves a strong WER of 4.7$\%$ on WSJ dataset.
- Abstract(参考訳): 本稿では,自動音声認識(asr)のためのミックスアップに基づく簡易かつ効果的なデータ拡張手法であるmixspeechを提案する。
MixSpeechは、2つの異なる音声特徴(例えば、メル・スペクトログラムまたはMFCC)を入力として重み付き組み合わせ、および2つの認識損失が同じ重みを使用する両方のテキストシーケンスを認識することによってASRモデルを訓練する。
MixSpeechをLAS(Listen、Attend、Spell)とTransformerを含む2つの一般的なエンドツーエンド音声認識モデルに適用し、TIMIT、WSJ、HKUSTを含むいくつかの低リソースデータセットの実験を行います。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高く,これらの認識タスクにおいて強力なデータ拡張手法であるSpecAugmentよりも優れていた。
具体的には、MixSpeechは、TIMITデータセットの相対的なPER改善10.6$\%$でSpecAugmentを上回り、WSJデータセットの4.7$\%$の強力なWERを達成する。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。