論文の概要: The Edinburgh International Accents of English Corpus: Towards the
Democratization of English ASR
- arxiv url: http://arxiv.org/abs/2303.18110v1
- Date: Fri, 31 Mar 2023 14:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:36:20.369421
- Title: The Edinburgh International Accents of English Corpus: Towards the
Democratization of English ASR
- Title(参考訳): エディンバラ・インターナショナル・アクセント・オブ・イングリッシュ:英語ASRの民主化に向けて
- Authors: Ramon Sanabria, Nikolay Bogoychev, Nina Markl, Andrea Carmantini,
Ondrej Klejch, Peter Bell
- Abstract要約: The Edinburgh International Accents of English Corpus (EdAcc)の最初のリリースについて紹介する。
このデータセットは英語の多様性をよりよく表現しようと試みている。
EdAccには、英語の第1言語と第2言語の幅広いバリエーションと、各話者の言語的背景プロファイルが含まれている。
- 参考スコア(独自算出の注目度): 18.613313234523886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: English is the most widely spoken language in the world, used daily by
millions of people as a first or second language in many different contexts. As
a result, there are many varieties of English. Although the great many advances
in English automatic speech recognition (ASR) over the past decades, results
are usually reported based on test datasets which fail to represent the
diversity of English as spoken today around the globe. We present the first
release of The Edinburgh International Accents of English Corpus (EdAcc). This
dataset attempts to better represent the wide diversity of English,
encompassing almost 40 hours of dyadic video call conversations between
friends. Unlike other datasets, EdAcc includes a wide range of first and
second-language varieties of English and a linguistic background profile of
each speaker. Results on latest public, and commercial models show that EdAcc
highlights shortcomings of current English ASR models. The best performing
model, trained on 680 thousand hours of transcribed data, obtains an average of
19.7% word error rate (WER) -- in contrast to the 2.7% WER obtained when
evaluated on US English clean read speech. Across all models, we observe a drop
in performance on Indian, Jamaican, and Nigerian English speakers. Recordings,
linguistic backgrounds, data statement, and evaluation scripts are released on
our website (https://groups.inf.ed.ac.uk/edacc/) under CC-BY-SA license.
- Abstract(参考訳): 英語は世界でもっとも広く話されている言語であり、何百万人もの人々が毎日、様々な文脈で第一言語または第二言語として使っている。
その結果、英語には多くの種類がある。
過去数十年にわたる英語自動音声認識(ASR)の進歩は大きいが、その結果は通常、世界中の英語の多様性を表すのに失敗するテストデータセットに基づいて報告される。
The Edinburgh International Accents of English Corpus (EdAcc)の最初のリリースを紹介する。
このデータセットは、友人間の約40時間のダイアドビデオ通話会話を含む、幅広い英語の多様性を表現しようと試みている。
他のデータセットとは異なり、EdAccは英語の第1言語と第2言語の幅広いバリエーションと各話者の言語的背景プロファイルを含んでいる。
最新のパブリックモデルと商用モデルの結果は、EdAccが現在の英語のASRモデルの欠点を強調していることを示している。
680万時間に及ぶ書き起こされたデータに基づいてトレーニングされた最良のパフォーマンスモデルは、平均19.7%の単語誤り率(wer)を得る。米国英語のクリーンリード音声で評価された2.7%のwerとは対照的である。
すべてのモデルを通して、インド、ジャマイカ、ナイジェリアの英語話者のパフォーマンス低下を観察した。
記録、言語背景、データステートメント、評価スクリプトは当社のwebサイト(https://groups.inf.ed.ac.uk/edacc/)でcc-by-saライセンスで公開しています。
関連論文リスト
- Native Design Bias: Studying the Impact of English Nativeness on Language Model Performance [3.344876133162209]
大規模言語モデル(LLM)は、大規模コーパスで事前訓練中に取得した情報を提供することに優れる。
本研究では,LLM応答の質がユーザの人口分布によって異なるかを検討する。
論文 参考訳(メタデータ) (2024-06-25T09:04:21Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Global Performance Disparities Between English-Language Accents in
Automatic Speech Recognition [3.080013134502519]
過去の研究では、人種集団の機能と話者の国籍として、差別的自動音声認識(ASR)のパフォーマンスを特定してきた。
本稿では, 原産地の地政学的配向の関数としてのバイアスを求める。
論文 参考訳(メタデータ) (2022-08-01T22:10:21Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Sentiment Classification in Swahili Language Using Multilingual BERT [0.04297070083645048]
本研究は、現在の最新モデルである多言語BERTを用いて、スワヒリデータセットの感情分類を行う。
このデータは、異なるソーシャルメディアプラットフォームとisear emotionデータセットで8.2kのレビューとコメントを抽出、注釈付けすることで作成された。
モデルは微調整され、最高の精度は87.59%に達した。
論文 参考訳(メタデータ) (2021-04-19T01:47:00Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。