論文の概要: Performance Disparities Between Accents in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2208.01157v1
- Date: Mon, 1 Aug 2022 22:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:18:54.403486
- Title: Performance Disparities Between Accents in Automatic Speech Recognition
- Title(参考訳): 自動音声認識におけるアクセント間の性能差
- Authors: Alex DiChristofano, Henry Shuster, Shefali Chandra, Neal Patwari
- Abstract要約: 話者の第一言語が英語であるか否かの関数として性能格差が存在することを示す。
これらの格差は、アメリカ合衆国の地政学的権力に関して、話者の出生国が政治的に整合していることと統計的に有意な関係がある。
- 参考スコア(独自算出の注目度): 3.080013134502519
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic speech recognition (ASR) services are ubiquitous, transforming
speech into text for systems like Amazon's Alexa, Google's Assistant, and
Microsoft's Cortana. However, researchers have identified biases in ASR
performance between particular English language accents by racial group and by
nationality. In this paper, we expand this discussion both qualitatively by
relating it to historical precedent and quantitatively through a large-scale
audit. Standardization of language and the use of language to maintain global
and political power have played an important role in history, which we explain
to show the parallels in the ways in which ASR services act on English language
speakers today. Then, using a large and global data set of speech from The
Speech Accent Archive which includes over 2,700 speakers of English born in 171
different countries, we perform an international audit of some of the most
popular English ASR services. We show that performance disparities exist as a
function of whether or not a speaker's first language is English and, even when
controlling for multiple linguistic covariates, that these disparities have a
statistically significant relationship to the political alignment of the
speaker's birth country with respect to the United States' geopolitical power.
- Abstract(参考訳): 自動音声認識(asr)サービスはユビキタスであり、amazonのalexa、googleのアシスタント、microsoftのcortanaなどのシステムで音声をテキストに変換する。
しかし、研究者は人種集団による特定の英語アクセントと国籍によるASRのパフォーマンスのバイアスを特定している。
本稿では,この議論を歴史的前例と関連づけ,大規模監査を通じて定量的に展開する。
言語標準化と国際的・政治的権力を維持するための言語の使用は歴史において重要な役割を担い、今日の英語話者にASRサービスが作用する方法の共通点を示す。
次に,171ヶ国で誕生した2,700人以上の英語話者を含む,音声アクセントアーカイブの大規模でグローバルな音声データセットを用いて,最も人気のある英語ASRサービスの国際監査を行う。
話者の第一言語が英語であるか否かの関数としてパフォーマンス格差が存在すること,また,複数の言語共変量を制御する場合でも,これらの差異は米国の地政学的権力に対する話者の出生国の政治的アライメントと統計的に有意な関係があることを示した。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese [5.308321515594125]
本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。
調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。
オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
論文 参考訳(メタデータ) (2024-02-12T09:35:13Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - The Edinburgh International Accents of English Corpus: Towards the
Democratization of English ASR [18.613313234523886]
The Edinburgh International Accents of English Corpus (EdAcc)の最初のリリースについて紹介する。
このデータセットは英語の多様性をよりよく表現しようと試みている。
EdAccには、英語の第1言語と第2言語の幅広いバリエーションと、各話者の言語的背景プロファイルが含まれている。
論文 参考訳(メタデータ) (2023-03-31T14:56:54Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。