論文の概要: Data Augmentation for Low-Resource Quechua ASR Improvement
- arxiv url: http://arxiv.org/abs/2207.06872v1
- Date: Thu, 14 Jul 2022 12:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 20:01:56.250503
- Title: Data Augmentation for Low-Resource Quechua ASR Improvement
- Title(参考訳): 低リソースキューチュアASR改善のためのデータ拡張
- Authors: Rodolfo Zevallos, Nuria Bel, Guillermo C\'ambara, Mireia Farr\'us and
Jordi Luque
- Abstract要約: ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
- 参考スコア(独自算出の注目度): 2.260916274164351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) is a key element in new services that
helps users to interact with an automated system. Deep learning methods have
made it possible to deploy systems with word error rates below 5% for ASR of
English. However, the use of these methods is only available for languages with
hundreds or thousands of hours of audio and their corresponding transcriptions.
For the so-called low-resource languages to speed up the availability of
resources that can improve the performance of their ASR systems, methods of
creating new resources on the basis of existing ones are being investigated. In
this paper we describe our data augmentation approach to improve the results of
ASR models for low-resource and agglutinative languages. We carry out
experiments developing an ASR for Quechua using the wav2letter++ model. We
reduced WER by 8.73% through our approach to the base model. The resulting ASR
model obtained 22.75% WER and was trained with 99 hours of original resources
and 99 hours of synthetic data obtained with a combination of text augmentation
and synthetic speech generati
- Abstract(参考訳): 音声認識(Automatic Speech Recognition, ASR)は、ユーザーが自動化されたシステムと対話するのを助ける新しいサービスの鍵となる要素である。
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
しかし、これらの方法の使用は、数百時間から数千時間のオーディオと対応する書き起こしを持つ言語でのみ利用可能である。
いわゆる低リソース言語が,ASRシステムの性能向上に寄与するリソースの可用性を向上するために,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
我々は,wav2letter++モデルを用いたquechua用asrの開発実験を行った。
ベースモデルへのアプローチにより,WERを8.73%削減した。
結果として得られたasrモデルは22.75%のwerを得て、99時間のオリジナルリソースと99時間の合成データとテキスト拡張と合成音声ジェネラティクスの組み合わせで訓練された。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - XLS-R Deep Learning Model for Multilingual ASR on Low- Resource
Languages: Indonesian, Javanese, and Sundanese [0.0]
本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。
その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。
論文 参考訳(メタデータ) (2024-01-12T13:44:48Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。