論文の概要: Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes
- arxiv url: http://arxiv.org/abs/2305.07389v1
- Date: Fri, 12 May 2023 11:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:19:55.072195
- Title: Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes
- Title(参考訳): L2英語における音声変化に対する音声認識システムの感度の検討
- Authors: Emma O'Neill and Julie Carson-Berndsen
- Abstract要約: この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems exhibit the best performance on
speech that is similar to that on which it was trained. As such,
underrepresented varieties including regional dialects, minority-speakers, and
low-resource languages, see much higher word error rates (WERs) than those
varieties seen as 'prestigious', 'mainstream', or 'standard'. This can act as a
barrier to incorporating ASR technology into the annotation process for
large-scale linguistic research since the manual correction of the erroneous
automated transcripts can be just as time and resource consuming as manual
transcriptions. A deeper understanding of the behaviour of an ASR system is
thus beneficial from a speech technology standpoint, in terms of improving ASR
accuracy, and from an annotation standpoint, where knowing the likely errors
made by an ASR system can aid in this manual correction. This work demonstrates
a method of probing an ASR system to discover how it handles phonetic variation
across a number of L2 Englishes. Specifically, how particular phonetic
realisations which were rare or absent in the system's training data can lead
to phoneme level misrecognitions and contribute to higher WERs. It is
demonstrated that the behaviour of the ASR is systematic and consistent across
speakers with similar spoken varieties (in this case the same L1) and phoneme
substitution errors are typically in agreement with human annotators. By
identifying problematic productions specific weaknesses can be addressed by
sourcing such realisations for training and fine-tuning thus making the system
more robust to pronunciation variation.
- Abstract(参考訳): 自動音声認識(ASR)システムは、訓練された音声と類似した音声上での最高の性能を示す。
このように、地域方言、少数話者、低リソース言語などの表現の少ない品種は、"prestigious"、"mainstream"、"standard"と見られる品種よりもはるかに高い単語誤り率(WER)を示す。
これは、誤った自動転写のマニュアル修正は、手書きの書き起こしと同じくらい時間とリソースを消費できるため、大規模な言語研究のためのアノテーションプロセスにASR技術を組み込むことの障壁となる。
ASRシステムの振る舞いをより深く理解することは、音声技術の観点からも、ASR精度の向上の観点からも有益であり、アノテーションの観点からも、ASRシステムによる潜在的なエラーを知ることは、この手作業による修正に役立つ。
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を示す。
具体的には、システムのトレーニングデータに稀あるいは欠落した特定の音素認識が、音素レベルの誤認識を引き起こし、より高いWERに寄与する可能性がある。
ASRの動作は、類似の話し言葉(この場合、L1)を持つ話者間で体系的に一貫性があり、音素置換誤差は典型的には人間のアノテーションと一致している。
問題のあるプロダクションを特定することで、トレーニングと微調整のためのそのような実現をソーシングすることで、特定の弱点に対処することができる。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - A Deep Learning System for Domain-specific Speech Recognition [0.0]
著者らは、事前に訓練されたDeepSpeech2とWav2Vec2音響モデルを使って、利益特異的なASRシステムの開発を行っている。
最高の性能は、Wav2Vec2-Large-LV60音響モデルと外部KenLMから得られる。
また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。
論文 参考訳(メタデータ) (2023-03-18T22:19:09Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。