論文の概要: Improving low-resource ASR performance with untranscribed out-of-domain
data
- arxiv url: http://arxiv.org/abs/2106.01227v1
- Date: Wed, 2 Jun 2021 15:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 19:43:09.153983
- Title: Improving low-resource ASR performance with untranscribed out-of-domain
data
- Title(参考訳): ドメイン外データによる低リソースASRの性能向上
- Authors: Jayadev Billa
- Abstract要約: 半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
- 参考スコア(独自算出の注目度): 8.376091455761259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised training (SST) is a common approach to leverage
untranscribed/unlabeled speech data to improve automatic speech recognition
performance in low-resource languages. However, if the available unlabeled
speech is mismatched to the target domain, SST is not as effective, and in many
cases performs worse than the original system. In this paper, we address the
issue of low-resource ASR when only untranscribed out-of-domain speech data is
readily available in the target language. Specifically, we look to improve
performance on conversational/telephony speech (target domain) using web
resources, in particular YouTube data, which more closely resembles
news/topical broadcast data. Leveraging SST, we show that while in some cases
simply pooling the out-of-domain data with the training data lowers word error
rate (WER), in all cases, we see improvements if we train first with the
out-of-domain data and then fine-tune the resulting model with the original
training data. Using 2000 hours of speed perturbed YouTube audio in each target
language, with semi-supervised transcripts, we show improvements on multiple
languages/data sets, of up to 16.3% relative improvement in WER over the
baseline systems and up to 7.4% relative improvement in WER over a system that
simply pools the out-of-domain data with the training data.
- Abstract(参考訳): 半教師付き訓練(SST)は、低リソース言語における音声認識性能を改善するために、非転写/ラベル付き音声データを活用する一般的な手法である。
しかし、利用可能なラベルなし音声が対象領域に不一致である場合、SSTは効果が低く、多くの場合、元のシステムよりも悪い性能を示す。
本稿では、未転写のドメイン外音声データのみをターゲット言語で容易に利用できる場合、低リソースASRの問題に対処する。
具体的には、Webリソース、特にニュース/トピック放送データに近いYouTubeデータを用いて、会話/電話音声(ターゲットドメイン)の性能向上を図る。
SSTを利用すると、トレーニングデータでドメイン外のデータをプールするだけでワードエラー率(WER)が低下するケースもあるが、いずれの場合も、ドメイン外のデータをトレーニングして、元のトレーニングデータで結果モデルを微調整すると改善が見られる。
準教師付き書き起こしによる2000時間の目標言語でのYouTubeオーディオの摂動を利用して、複数の言語/データセットの改善、ベースラインシステムに対するWERの最大16.3%の改善、トレーニングデータにドメイン外のデータをプールするシステムに対するWERの最大7.4%の改善を示す。
関連論文リスト
- Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - Improving Accented Speech Recognition with Multi-Domain Training [2.28438857884398]
我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
論文 参考訳(メタデータ) (2023-03-14T14:10:16Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR [10.261890123213622]
自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
論文 参考訳(メタデータ) (2021-04-03T13:00:00Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。