Fugu-MT 論文翻訳(概要): Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes

論文の概要: Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes

arxiv url: http://arxiv.org/abs/2305.07389v1
Date: Fri, 12 May 2023 11:29:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 13:19:55.072195
Title: Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes
Title（参考訳）: L2英語における音声変化に対する音声認識システムの感度の検討
Authors: Emma O'Neill and Julie Carson-Berndsen
Abstract要約: この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。 ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
参考スコア（独自算出の注目度）: 3.198144010381572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Speech Recognition (ASR) systems exhibit the best performance on speech that is similar to that on which it was trained. As such, underrepresented varieties including regional dialects, minority-speakers, and low-resource languages, see much higher word error rates (WERs) than those varieties seen as 'prestigious', 'mainstream', or 'standard'. This can act as a barrier to incorporating ASR technology into the annotation process for large-scale linguistic research since the manual correction of the erroneous automated transcripts can be just as time and resource consuming as manual transcriptions. A deeper understanding of the behaviour of an ASR system is thus beneficial from a speech technology standpoint, in terms of improving ASR accuracy, and from an annotation standpoint, where knowing the likely errors made by an ASR system can aid in this manual correction. This work demonstrates a method of probing an ASR system to discover how it handles phonetic variation across a number of L2 Englishes. Specifically, how particular phonetic realisations which were rare or absent in the system's training data can lead to phoneme level misrecognitions and contribute to higher WERs. It is demonstrated that the behaviour of the ASR is systematic and consistent across speakers with similar spoken varieties (in this case the same L1) and phoneme substitution errors are typically in agreement with human annotators. By identifying problematic productions specific weaknesses can be addressed by sourcing such realisations for training and fine-tuning thus making the system more robust to pronunciation variation.
Abstract（参考訳）: 自動音声認識(ASR)システムは、訓練された音声と類似した音声上での最高の性能を示す。このように、地域方言、少数話者、低リソース言語などの表現の少ない品種は、"prestigious"、"mainstream"、"standard"と見られる品種よりもはるかに高い単語誤り率(WER)を示す。これは、誤った自動転写のマニュアル修正は、手書きの書き起こしと同じくらい時間とリソースを消費できるため、大規模な言語研究のためのアノテーションプロセスにASR技術を組み込むことの障壁となる。 ASRシステムの振る舞いをより深く理解することは、音声技術の観点からも、ASR精度の向上の観点からも有益であり、アノテーションの観点からも、ASRシステムによる潜在的なエラーを知ることは、この手作業による修正に役立つ。この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を示す。具体的には、システムのトレーニングデータに稀あるいは欠落した特定の音素認識が、音素レベルの誤認識を引き起こし、より高いWERに寄与する可能性がある。 ASRの動作は、類似の話し言葉(この場合、L1)を持つ話者間で体系的に一貫性があり、音素置換誤差は典型的には人間のアノテーションと一致している。問題のあるプロダクションを特定することで、トレーニングと微調整のためのそのような実現をソーシングすることで、特定の弱点に対処することができる。

関連論文リスト

Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling [0.0]
本研究は,L2-ARCTICコーパスからの録音を用いて,英語アクセント音声の最先端5つの音声認識システムについて検討した。読み上げ音声では,Whisper と AssemblyAI がそれぞれ 0.054 と 0.056 のマッチング誤り率 (MER) で最高の精度を達成した。自発音声では,平均MERは0.063。
論文参考訳（メタデータ） (2025-03-10T05:09:44Z)
Quantification of stylistic differences in human- and ASR-produced transcripts of African American English [1.8021379035665333]
動詞と非動詞の区別は、ASRのパフォーマンス評価において重要な役割を果たす。アフリカン・アメリカン・イングリッシュ・スピーチの10時間における6つの転写版と4つのASRと2つのASRのスタイリスティックな違いを分類した。本稿では,これらのカテゴリ間の相互作用と,単語誤り率による書き起こしの精度について検討する。
論文参考訳（メタデータ） (2024-09-04T20:18:59Z)
Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文参考訳（メタデータ） (2024-08-30T11:02:17Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文参考訳（メタデータ） (2023-05-23T03:50:35Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
Improving Distinction between ASR Errors and Speech Disfluencies with Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文参考訳（メタデータ） (2021-08-04T02:11:37Z)
Hallucination of speech recognition errors with sequence to sequence learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文参考訳（メタデータ） (2021-03-23T02:09:39Z)
Knowledge Distillation for Improved Accuracy in Spoken Question Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。我々の研究は、言語モデルから知識の抽出を監督信号として進めている。実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-21T15:18:01Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。