論文の概要: Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2103.07186v1
- Date: Fri, 12 Mar 2021 10:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:30:09.027459
- Title: Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition
- Title(参考訳): 低リソースエンドツーエンド音声認識のためのBPE-Dropoutによる動的音響ユニット拡張
- Authors: Aleksandr Laptev, Andrei Andrusenko, Ivan Podluzhny, Anton Mitrofanov,
Ivan Medennikov, Yuri Matveev
- Abstract要約: 我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
- 参考スコア(独自算出の注目度): 62.94773371761236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of speech assistants, adapting server-intended
automatic speech recognition (ASR) solutions to a direct device has become
crucial. Researchers and industry prefer to use end-to-end ASR systems for
on-device speech recognition tasks. This is because end-to-end systems can be
made resource-efficient while maintaining a higher quality compared to hybrid
systems. However, building end-to-end models requires a significant amount of
speech data. Another challenging task associated with speech assistants is
personalization, which mainly lies in handling out-of-vocabulary (OOV) words.
In this work, we consider building an effective end-to-end ASR system in
low-resource setups with a high OOV rate, embodied in Babel Turkish and Babel
Georgian tasks. To address the aforementioned problems, we propose a method of
dynamic acoustic unit augmentation based on the BPE-dropout technique. It
non-deterministically tokenizes utterances to extend the token's contexts and
to regularize their distribution for the model's recognition of unseen words.
It also reduces the need for optimal subword vocabulary size search. The
technique provides a steady improvement in regular and personalized
(OOV-oriented) speech recognition tasks (at least 6% relative WER and 25%
relative F-score) at no additional computational cost. Owing to the use of
BPE-dropout, our monolingual Turkish Conformer established a competitive result
with 22.2% character error rate (CER) and 38.9% word error rate (WER), which is
close to the best published multilingual system.
- Abstract(参考訳): 音声アシスタントの急速な発展に伴い、サーバーによる自動音声認識(ASR)ソリューションを直接デバイスに適応させることが重要です。
研究者や業界は、デバイス上の音声認識タスクにエンドツーエンドのASRシステムを使うことを好む。
これは、ハイブリッドシステムと比較して高い品質を維持しながら、エンドツーエンドシステムをリソース効率にすることができるためです。
しかし、エンドツーエンドモデルの構築には大量の音声データが必要である。
音声アシスタントに関連するもう1つの課題はパーソナライズであり、主に語彙外単語(OOV)を扱うことである。
本研究では,Babel Turk と Babel Georgian のタスクを具体化した,高OOV レートの低リソース構成で効率的なエンドツーエンド ASR システムを構築することを検討する。
そこで本研究では,BPE-dropout法を用いた動的音響ユニット増強法を提案する。
非決定論的に発話をトークン化して、トークンのコンテキストを拡張し、モデルの目に見えない単語認識のための分布を正規化します。
また、最適なサブワード語彙サイズ検索の必要性も減らす。
この手法は、正規およびパーソナライズされた(oov指向)音声認識タスク(少なくとも6%の相対werと25%の相対f-score)を計算コストなしで着実に改善する。
我々の単言語であるトルコ語コンフォーマーは、BPEドロップアウトの使用により、22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
関連論文リスト
- Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - A transfer learning based approach for pronunciation scoring [7.98890440106366]
携帯電話レベルの発音は、人間のアノテータよりもはるかにパフォーマンスが低い、難しい作業である。
標準システムは、ネイティブデータのみを持つ自動音声認識(ASR)のために訓練されたモデルを使用して、フレーズで各電話機にスコアを生成する。
本稿では、ASRで訓練されたモデルを活用し、発音評価のタスクに適応するトランスファー学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-01T14:37:06Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。