論文の概要: Improving Low Resource Code-switched ASR using Augmented Code-switched
TTS
- arxiv url: http://arxiv.org/abs/2010.05549v1
- Date: Mon, 12 Oct 2020 09:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:41:17.028285
- Title: Improving Low Resource Code-switched ASR using Augmented Code-switched
TTS
- Title(参考訳): Augmented Code-switched TTSによる低リソースコードスイッチングASRの改善
- Authors: Yash Sharma, Basil Abraham, Karan Taneja, Preethi Jyothi
- Abstract要約: 近年,コードスイッチによる音声認識システムの構築が注目されている。
エンドツーエンドシステムは大量のラベル付き音声を必要とする。
絶対単語誤り率(WER)を最大5%まで低下させるASR性能の大幅な改善を報告した。
- 参考スコア(独自算出の注目度): 29.30430160611224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building Automatic Speech Recognition (ASR) systems for code-switched speech
has recently gained renewed attention due to the widespread use of speech
technologies in multilingual communities worldwide. End-to-end ASR systems are
a natural modeling choice due to their ease of use and superior performance in
monolingual settings. However, it is well known that end-to-end systems require
large amounts of labeled speech. In this work, we investigate improving
code-switched ASR in low resource settings via data augmentation using
code-switched text-to-speech (TTS) synthesis. We propose two targeted
techniques to effectively leverage TTS speech samples: 1) Mixup, an existing
technique to create new training samples via linear interpolation of existing
samples, applied to TTS and real speech samples, and 2) a new loss function,
used in conjunction with TTS samples, to encourage code-switched predictions.
We report significant improvements in ASR performance achieving absolute word
error rate (WER) reductions of up to 5%, and measurable improvement in code
switching using our proposed techniques on a Hindi-English code-switched ASR
task.
- Abstract(参考訳): 近年,多言語コミュニティにおける音声技術の普及により,コードスイッチ音声の自動音声認識(ASR)システムの構築が注目されている。
エンドツーエンドのasrシステムは、使いやすさとモノリンガル設定のパフォーマンスが優れているため、自然なモデリング選択である。
しかし、エンドツーエンドシステムは大量のラベル付き音声を必要とすることはよく知られている。
本研究では,コード切替テキスト音声合成(TTS)を用いたデータ拡張による低リソース環境におけるコード切替ASRの改善について検討する。
TTS音声サンプルを効果的に活用するための2つの手法を提案する。
1) 既存のサンプルの線形補間による新たなトレーニングサンプル作成手法であるMixupをTTSおよび実音声サンプルに適用し,
2) TTS サンプルと組み合わせた新たな損失関数は,コード変更による予測を促進する。
本稿では, 絶対単語誤り率(WER)を最大5%向上させるASR性能の大幅な改善と, 提案手法を用いたHindi-Brited ASRタスクにおけるコードスイッチングの可測化について報告する。
関連論文リスト
- Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation [10.650573361117669]
半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。
最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
論文 参考訳(メタデータ) (2022-10-21T19:42:41Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Data Augmentation for End-to-end Code-switching Speech Recognition [53.02538329776947]
コードスイッチングデータ拡張のための3つの新しいアプローチが提案されている。
既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTS。
200時間のMandarin-Britishコードスイッチングデータセットの実験では、コードスイッチングASRを個別に大幅に改善した。
論文 参考訳(メタデータ) (2020-11-04T07:12:44Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。