論文の概要: Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09256v2
- Date: Fri, 31 Jul 2020 08:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:15:11.838540
- Title: Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition
- Title(参考訳): 超低リソース自動音声認識のための生成型adversarial training data adaptation
- Authors: Kohei Matsuura, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara
- Abstract要約: 我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
- 参考スコア(独自算出の注目度): 31.808145263757105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important to transcribe and archive speech data of endangered languages
for preserving heritages of verbal culture and automatic speech recognition
(ASR) is a powerful tool to facilitate this process. However, since endangered
languages do not generally have large corpora with many speakers, the
performance of ASR models trained on them are considerably poor in general.
Nevertheless, we are often left with a lot of recordings of spontaneous speech
data that have to be transcribed. In this work, for mitigating this speaker
sparsity problem, we propose to convert the whole training speech data and make
it sound like the test speaker in order to develop a highly accurate ASR system
for this speaker. For this purpose, we utilize a CycleGAN-based non-parallel
voice conversion technology to forge a labeled training data that is close to
the test speaker's speech. We evaluated this speaker adaptation approach on two
low-resource corpora, namely, Ainu and Mboshi. We obtained 35-60% relative
improvement in phone error rate on the Ainu corpus, and 40% relative
improvement was attained on the Mboshi corpus. This approach outperformed two
conventional methods namely unsupervised adaptation and multilingual training
with these two corpora.
- Abstract(参考訳): 言語文化の遺産を保存するために、絶滅危惧言語の音声データを書き起こし、アーカイブすることが重要であり、自動音声認識(asr)はこのプロセスを容易にする強力なツールである。
しかし、絶滅危惧言語は一般に多くの話者を持つ大きなコーパスを持たないため、訓練されたASRモデルの性能は概してかなり劣っている。
それでも、書き起こさなければならない自発的な音声データの多くの記録が残されていることが多い。
本研究では,この話者スパーシティ問題を解決するために,学習音声データ全体を変換し,テスト話者のように聞こえるようにし,高精度なasrシステムを構築することを提案する。
本研究では,CycleGANをベースとした非並列音声変換技術を用いて,テスト話者の音声に近いラベル付きトレーニングデータを構築する。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
Ainu corpusの電話誤り率を35-60%改善し,Mboshi corpusでは40%改善した。
このアプローチは、教師なし適応とこれら2つのコーパスによる多言語訓練という、2つの従来の手法よりも優れていた。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。