論文の概要: Global Performance Disparities Between English-Language Accents in
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2208.01157v2
- Date: Thu, 9 Feb 2023 04:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 10:15:37.824037
- Title: Global Performance Disparities Between English-Language Accents in
Automatic Speech Recognition
- Title(参考訳): 音声認識における英語アクセントのグローバルな性能差
- Authors: Alex DiChristofano, Henry Shuster, Shefali Chandra, Neal Patwari
- Abstract要約: 過去の研究では、人種集団の機能と話者の国籍として、差別的自動音声認識(ASR)のパフォーマンスを特定してきた。
本稿では, 原産地の地政学的配向の関数としてのバイアスを求める。
- 参考スコア(独自算出の注目度): 3.080013134502519
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Past research has identified discriminatory automatic speech recognition
(ASR) performance as a function of the racial group and nationality of the
speaker. In this paper, we expand the discussion beyond bias as a function of
the individual national origin of the speaker to look for bias as a function of
the geopolitical orientation of their nation of origin. We audit some of the
most popular English language ASR services using a large and global data set of
speech from The Speech Accent Archive, which includes over 2,700 speakers of
English born in 171 different countries. We show that, even when controlling
for multiple linguistic covariates, ASR service performance has a statistically
significant relationship to the political alignment of the speaker's birth
country with respect to the United States' geopolitical power. This holds for
all ASR services tested. We discuss this bias in the context of the historical
use of language to maintain global and political power.
- Abstract(参考訳): 過去の研究では、人種集団の機能と話者の国籍として、差別的自動音声認識(ASR)のパフォーマンスを特定してきた。
本稿では,話者の個人的起源の関数としての偏見を超えて議論を拡大し,その起源国家の地政学的指向の関数としての偏見を求める。
我々は、171か国で生まれた2700人以上の英語話者を含む音声アクセントアーカイブから、大規模かつグローバルな音声データセットを使用して、最も人気のある英語asrサービスのいくつかを監査する。
複数の言語共変量を制御する場合でも、asrサービスのパフォーマンスは、米国の地政学的権力に対する話者の出生国の政治的アライメントと統計的に有意な関係があることを示している。
これはテスト対象のすべてのASRサービスに当てはまる。
我々は、このバイアスを、グローバルおよび政治的権力を維持するために、歴史的言語の使用という文脈で論じる。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese [5.308321515594125]
本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。
調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。
オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
論文 参考訳(メタデータ) (2024-02-12T09:35:13Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - The Edinburgh International Accents of English Corpus: Towards the
Democratization of English ASR [18.613313234523886]
The Edinburgh International Accents of English Corpus (EdAcc)の最初のリリースについて紹介する。
このデータセットは英語の多様性をよりよく表現しようと試みている。
EdAccには、英語の第1言語と第2言語の幅広いバリエーションと、各話者の言語的背景プロファイルが含まれている。
論文 参考訳(メタデータ) (2023-03-31T14:56:54Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。