論文の概要: Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.10951v1
- Date: Thu, 18 May 2023 13:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:05:09.588957
- Title: Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation
- Title(参考訳): 少ないデータを増やす:データ拡張を用いた低リソース自動音声認識の改善
- Authors: Martijn Bartelds and Nay San and Bradley McDonnell and Dan Jurafsky
and Martijn Wieling
- Abstract要約: この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
- 参考スコア(独自算出の注目度): 20.45373308116162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of automatic speech recognition (ASR) systems has advanced
substantially in recent years, particularly for languages for which a large
amount of transcribed speech is available. Unfortunately, for low-resource
languages, such as minority languages, regional languages or dialects, ASR
performance generally remains much lower. In this study, we investigate whether
data augmentation techniques could help improve low-resource ASR performance,
focusing on four typologically diverse minority languages or language variants
(West Germanic: Gronings, West-Frisian; Malayo-Polynesian: Besemah, Nasal). For
all four languages, we examine the use of self-training, where an ASR system
trained with the available human-transcribed data is used to generate
transcriptions, which are then combined with the original data to train a new
ASR system. For Gronings, for which there was a pre-existing text-to-speech
(TTS) system available, we also examined the use of TTS to generate ASR
training data from text-only sources. We find that using a self-training
approach consistently yields improved performance (a relative WER reduction up
to 20.5% compared to using an ASR system trained on 24 minutes of manually
transcribed speech). The performance gain from TTS augmentation for Gronings
was even stronger (up to 25.5% relative reduction in WER compared to a system
based on 24 minutes of manually transcribed speech). In sum, our results show
the benefit of using self-training or (if possible) TTS-generated data as an
efficient solution to overcome the limitations of data availability for
resource-scarce languages in order to improve ASR performance.
- Abstract(参考訳): 音声認識システム(ASR)の性能は近年大きく進歩しており、特に大量の転写音声が利用できる言語では顕著である。
残念なことに、少数言語、地域言語、方言などの低リソース言語では、ASRのパフォーマンスは概してはるかに低いままである。
本研究では, タイポロジーに富んだ4つのマイノリティ言語や言語変種(西ゲルマン語: Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に着目し, 低リソースASRの性能向上に寄与するかどうかを検討する。
これら4言語すべてに対して、利用可能な人書きデータを用いてトレーニングされたASRシステムが転写を生成する自己学習システムを用いて、元のデータと組み合わせて新しいASRシステムを訓練する方法について検討する。
また,既存のテキスト音声(TTS)システムであるGroningsに対しては,テキストのみのソースからASRトレーニングデータを生成するために,TSを用いて検討した。
自己学習アプローチを用いることで、パフォーマンスが向上する(手書き音声の24分でトレーニングされたASRシステムと比較して、相対的なWER削減率は20.5%)。
グローニングにおけるttsの強化による性能向上は、24分間の手動転写音声に基づくシステムと比較して、最大25.5%のwhr低下を示した。
その結果,asr性能を改善するために,データ可用性の限界を克服するための効率的なソリューションとして,自己学習や(可能であれば)tts生成データを使用することの利点が示された。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。
数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。
これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文 参考訳(メタデータ) (2022-07-20T13:33:41Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。