論文の概要: Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System
- arxiv url: http://arxiv.org/abs/2106.09963v1
- Date: Fri, 18 Jun 2021 07:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 13:58:26.315894
- Title: Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System
- Title(参考訳): 非ネイティブの子供による非転写データを用いた低資源ドイツASR-InterSPEECH 2021共有タスクSPAPLシステム
- Authors: Jinhan Wang, Yunzheng Zhu, Ruchao Fan, Wei Chu, Abeer Alwan
- Abstract要約: 本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
- 参考スコア(独自算出の注目度): 19.435571932141364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the SPAPL system for the INTERSPEECH 2021 Challenge:
Shared Task on Automatic Speech Recognition for Non-Native Children's Speech in
German. ~ 5 hours of transcribed data and ~ 60 hours of untranscribed data are
provided to develop a German ASR system for children. For the training of the
transcribed data, we propose a non-speech state discriminative loss (NSDL) to
mitigate the influence of long-duration non-speech segments within speech
utterances. In order to explore the use of the untranscribed data, various
approaches are implemented and combined together to incrementally improve the
system performance. First, bidirectional autoregressive predictive coding
(Bi-APC) is used to learn initial parameters for acoustic modelling using the
provided untranscribed data. Second, incremental semi-supervised learning is
further used to iteratively generate pseudo-transcribed data. Third, different
data augmentation schemes are used at different training stages to increase the
variability and size of the training data. Finally, a recurrent neural network
language model (RNNLM) is used for rescoring. Our system achieves a word error
rate (WER) of 39.68% on the evaluation data, an approximately 12% relative
improvement over the official baseline (45.21%).
- Abstract(参考訳): 本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子供向けのドイツのASRシステムを開発するために、5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
非転写データの利用を探求するため、システム性能を漸進的に改善するために、様々なアプローチが実装され、組み合わせられる。
まず,双方向自己回帰型予測符号化(bi-apc)を用いて音響モデルの初期パラメータを学習する。
第2に、逐次半教師付き学習により、擬似転写データを反復的に生成する。
第3に、異なるトレーニング段階で異なるデータ拡張スキームを使用して、トレーニングデータのばらつきとサイズを増大させる。
最後に、リコーディングにはリカレントニューラルネットワーク言語モデル(RNNLM)が使用される。
本システムでは,評価データに対して39.68%の単語誤り率(WER)を達成し,オフィシャルベースライン(45.21%)に対して約12%の改善を行った。
関連論文リスト
- Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。