論文の概要: Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2103.07186v1
- Date: Fri, 12 Mar 2021 10:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:30:09.027459
- Title: Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition
- Title(参考訳): 低リソースエンドツーエンド音声認識のためのBPE-Dropoutによる動的音響ユニット拡張
- Authors: Aleksandr Laptev, Andrei Andrusenko, Ivan Podluzhny, Anton Mitrofanov,
Ivan Medennikov, Yuri Matveev
- Abstract要約: 我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
- 参考スコア(独自算出の注目度): 62.94773371761236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of speech assistants, adapting server-intended
automatic speech recognition (ASR) solutions to a direct device has become
crucial. Researchers and industry prefer to use end-to-end ASR systems for
on-device speech recognition tasks. This is because end-to-end systems can be
made resource-efficient while maintaining a higher quality compared to hybrid
systems. However, building end-to-end models requires a significant amount of
speech data. Another challenging task associated with speech assistants is
personalization, which mainly lies in handling out-of-vocabulary (OOV) words.
In this work, we consider building an effective end-to-end ASR system in
low-resource setups with a high OOV rate, embodied in Babel Turkish and Babel
Georgian tasks. To address the aforementioned problems, we propose a method of
dynamic acoustic unit augmentation based on the BPE-dropout technique. It
non-deterministically tokenizes utterances to extend the token's contexts and
to regularize their distribution for the model's recognition of unseen words.
It also reduces the need for optimal subword vocabulary size search. The
technique provides a steady improvement in regular and personalized
(OOV-oriented) speech recognition tasks (at least 6% relative WER and 25%
relative F-score) at no additional computational cost. Owing to the use of
BPE-dropout, our monolingual Turkish Conformer established a competitive result
with 22.2% character error rate (CER) and 38.9% word error rate (WER), which is
close to the best published multilingual system.
- Abstract(参考訳): 音声アシスタントの急速な発展に伴い、サーバーによる自動音声認識(ASR)ソリューションを直接デバイスに適応させることが重要です。
研究者や業界は、デバイス上の音声認識タスクにエンドツーエンドのASRシステムを使うことを好む。
これは、ハイブリッドシステムと比較して高い品質を維持しながら、エンドツーエンドシステムをリソース効率にすることができるためです。
しかし、エンドツーエンドモデルの構築には大量の音声データが必要である。
音声アシスタントに関連するもう1つの課題はパーソナライズであり、主に語彙外単語(OOV)を扱うことである。
本研究では,Babel Turk と Babel Georgian のタスクを具体化した,高OOV レートの低リソース構成で効率的なエンドツーエンド ASR システムを構築することを検討する。
そこで本研究では,BPE-dropout法を用いた動的音響ユニット増強法を提案する。
非決定論的に発話をトークン化して、トークンのコンテキストを拡張し、モデルの目に見えない単語認識のための分布を正規化します。
また、最適なサブワード語彙サイズ検索の必要性も減らす。
この手法は、正規およびパーソナライズされた(oov指向)音声認識タスク(少なくとも6%の相対werと25%の相対f-score)を計算コストなしで着実に改善する。
我々の単言語であるトルコ語コンフォーマーは、BPEドロップアウトの使用により、22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
関連論文リスト
- Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - A transfer learning based approach for pronunciation scoring [7.98890440106366]
携帯電話レベルの発音は、人間のアノテータよりもはるかにパフォーマンスが低い、難しい作業である。
標準システムは、ネイティブデータのみを持つ自動音声認識(ASR)のために訓練されたモデルを使用して、フレーズで各電話機にスコアを生成する。
本稿では、ASRで訓練されたモデルを活用し、発音評価のタスクに適応するトランスファー学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-01T14:37:06Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。