論文の概要: Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages
- arxiv url: http://arxiv.org/abs/2111.10047v1
- Date: Fri, 19 Nov 2021 05:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 15:53:47.841673
- Title: Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages
- Title(参考訳): 低リソース言語へのエンドツーエンド音声認識モデルの言語拡張のための半教師あり変換学習
- Authors: Jiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim
- Abstract要約: 低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
- 参考スコア(独自算出の注目度): 19.44975351652865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a three-stage training methodology to improve the
speech recognition accuracy of low-resource languages. We explore and propose
an effective combination of techniques such as transfer learning, encoder
freezing, data augmentation using Text-To-Speech (TTS), and Semi-Supervised
Learning (SSL). To improve the accuracy of a low-resource Italian ASR, we
leverage a well-trained English model, unlabeled text corpus, and unlabeled
audio corpus using transfer learning, TTS augmentation, and SSL respectively.
In the first stage, we use transfer learning from a well-trained English model.
This primarily helps in learning the acoustic information from a resource-rich
language. This stage achieves around 24% relative Word Error Rate (WER)
reduction over the baseline. In stage two, We utilize unlabeled text data via
TTS data-augmentation to incorporate language information into the model. We
also explore freezing the acoustic encoder at this stage. TTS data augmentation
helps us further reduce the WER by ~ 21% relatively. Finally, In stage three we
reduce the WER by another 4% relative by using SSL from unlabeled audio data.
Overall, our two-pass speech recognition system with a Monotonic Chunkwise
Attention (MoChA) in the first pass and a full-attention in the second pass
achieves a WER reduction of ~ 42% relative to the baseline.
- Abstract(参考訳): 本稿では,低リソース言語の音声認識精度を向上させるための3段階学習手法を提案する。
本研究では,転送学習,エンコーダ凍結,テキスト・トゥ・スペーチ(TTS)を用いたデータ拡張,セミ・スーパーバイザード・ラーニング(SSL)など,効果的な組み合わせを提案する。
低リソースのイタリアASRの精度を向上させるため、トランスファーラーニング、TS拡張、SSLを用いて、よく訓練された英語モデル、未ラベルのテキストコーパス、未ラベルのオーディオコーパスを利用する。
第1段階では、よく訓練された英語モデルから転送学習を利用する。
これは主に、リソース豊富な言語から音響情報を学ぶのに役立つ。
この段階では、ベースライン上のワードエラー率(WER)を約24%削減する。
ステージ2では、TSデータ拡張によるラベルなしテキストデータを用いて、言語情報をモデルに組み込む。
この段階では音響エンコーダの凍結も検討する。
TTSデータ拡張は、WERを相対的に約21%削減するのに役立ちます。
最後に、ステージ3では、未ラベルのオーディオデータからSSLを使用することで、WERをさらに4%削減する。
全体として、第1パスに単調なチャンクワイズアテンション(mocha)、第2パスにフルアテンションを持つ2パス音声認識システムは、ベースラインに対して約42%のwhr削減を達成している。
関連論文リスト
- Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。