論文の概要: English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System
- arxiv url: http://arxiv.org/abs/2105.05041v1
- Date: Sun, 9 May 2021 08:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 09:17:31.065231
- Title: English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System
- Title(参考訳): 最先端自動音声認識システムにおける英語アクセントの精度解析
- Authors: Guillermo C\'ambara, Alex Peir\'o-Lilja, Mireia Farr\'us, Jordi Luque
- Abstract要約: 様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
- 参考スコア(独自算出の注目度): 3.4888132404740797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, research in speech technologies has gotten a lot out thanks to
recently created public domain corpora that contain thousands of recording
hours. These large amounts of data are very helpful for training the new
complex models based on deep learning technologies. However, the lack of
dialectal diversity in a corpus is known to cause performance biases in speech
systems, mainly for underrepresented dialects. In this work, we propose to
evaluate a state-of-the-art automatic speech recognition (ASR) deep
learning-based model, using unseen data from a corpus with a wide variety of
labeled English accents from different countries around the world. The model
has been trained with 44.5K hours of English speech from an open access corpus
called Multilingual LibriSpeech, showing remarkable results in popular
benchmarks. We test the accuracy of such ASR against samples extracted from
another public corpus that is continuously growing, the Common Voice dataset.
Then, we present graphically the accuracy in terms of Word Error Rate of each
of the different English included accents, showing that there is indeed an
accuracy bias in terms of accentual variety, favoring the accents most
prevalent in the training corpus.
- Abstract(参考訳): 最近は、何千もの録音時間を含むパブリックドメインコーパスによって、音声技術の研究が盛んに行われている。
これらの大量のデータは、ディープラーニング技術に基づく新しい複雑なモデルのトレーニングに非常に役立ちます。
しかし、コーパスにおける方言の多様性の欠如は、主に表現不足の方言に対して、音声システムのパフォーマンスバイアスを引き起こすことが知られている。
本研究では,世界中の異なる国からの多様なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識(asr)深層学習モデルを評価することを提案する。
このモデルは、Multilingual LibriSpeechと呼ばれるオープンアクセスコーパスから44.5Kの英語音声で訓練されており、人気のあるベンチマークで顕著な結果を示している。
このようなASRの精度を、連続的に成長している他の公共コーパスから抽出したサンプルであるCommon Voiceデータセットと比較する。
そして,それぞれの英語を含むアクセントの単語誤り率について,その正確さを図式的に示すとともに,アクセントの多様さに関して,精度の偏りがあることを示し,トレーニングコーパスで最も多いアクセントを好んだ。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Improving Speech Recognition for African American English With Audio
Classification [17.785482810741367]
本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
論文 参考訳(メタデータ) (2023-09-16T19:57:45Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Effects of language mismatch in automatic forensic voice comparison
using deep learning embeddings [0.0]
本研究の目的は、英語コーパスで事前学習したモデルが、ターゲットとする低リソース言語で利用できるかどうかを検討することである。
その結果, モデルが異なる言語で事前学習されているが, 大量の話者を持つコーパスでは, 言語ミスマッチのあるサンプルに対して良好な性能が得られた。
論文 参考訳(メタデータ) (2022-09-26T11:49:37Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Deep Speech Based End-to-End Automated Speech Recognition (ASR) for
Indian-English Accents [0.0]
インド英語アクセントのエンドツーエンド音声認識システムの開発にトランスファーラーニングアプローチを用いた。
インド英語アクセントのインデックスTSデータは、事前訓練されたディープ音声モデルの転写学習と微調整に使用される。
論文 参考訳(メタデータ) (2022-04-03T03:11:21Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。