論文の概要: A Sociolinguistic Analysis of Automatic Speech Recognition Bias in Newcastle English
- arxiv url: http://arxiv.org/abs/2603.24549v1
- Date: Wed, 25 Mar 2026 17:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.409057
- Title: A Sociolinguistic Analysis of Automatic Speech Recognition Bias in Newcastle English
- Title(参考訳): ニューカッスル英語における音声認識バイアスの社会言語学的分析
- Authors: Dana Serditova, Kevin Tang,
- Abstract要約: 本研究ではニューカッスル英語の社会言語学的分析を通してASRバイアスについて検討する。
我々は、最先端の商用ASRシステムの出力を評価し、3000以上の転写誤りのきめ細かい分析を行う。
- 参考スコア(独自算出の注目度): 6.164342356356261
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems are widely used in everyday communication, education, healthcare, and industry, yet their performance remains uneven across speakers, particularly when dialectal variation diverges from the mainstream accents represented in training data. This study investigates ASR bias through a sociolinguistic analysis of Newcastle English, a regional variety of North-East England that has been shown to challenge current speech recognition technologies. Using spontaneous speech from the Diachronic Electronic Corpus of Tyneside English (DECTE), we evaluate the output of a state-of-the-art commercial ASR system and conduct a fine-grained analysis of more than 3,000 transcription errors. Errors are classified by linguistic domain and examined in relation to social variables including gender, age, and socioeconomic status. In addition, an acoustic case study of selected vowel features demonstrates how gradient phonetic variation contributes directly to misrecognition. The results show that phonological variation accounts for the majority of errors, with recurrent failures linked to dialect-specific features like vowel quality and glottalisation, as well as local vocabulary and non-standard grammatical forms. Error rates also vary across social groups, with higher error frequencies observed for men and for speakers at the extremes of the age spectrum. These findings indicate that ASR errors are not random but socially patterned and can be explained from a sociolinguistic perspective. Thus, the study demonstrates the importance of incorporating sociolinguistic expertise into the evaluation and development of speech technologies and argues that more equitable ASR systems require explicit attention to dialectal variation and community-based speech data.
- Abstract(参考訳): 自動音声認識(ASR)システムは日常的なコミュニケーション、教育、医療、産業で広く使われているが、その性能は話者間で不均一であり、特に訓練データで表される主流のアクセントから方言の変動が発散している。
本研究は、現在の音声認識技術に挑戦することが示されているイングランド北東部の地域品種であるニューカッスル・イングリッシュの社会言語学的分析を通して、ASRバイアスについて検討する。
タイヌサイド・イングリッシュ (DECTE) のダイアクロニック・エレクトロニック・コーパス (Diachronic Electronic Corpus) からの自発音声を用いて, 最先端の商用ASRシステムの出力を評価し, 3000以上の転写誤りのきめ細かい分析を行う。
エラーは言語領域によって分類され、性別、年齢、社会経済状態などの社会的変数に関連して検討される。
さらに、選択した母音の特徴の音響的ケーススタディは、勾配音韻変動が誤認識にどのように寄与するかを示す。
その結果,母音品質や声門化などの方言特有な特徴や,局所語彙や非標準文法形式に関連付けられ,音韻学的変異がほとんどの誤りの原因となっていることが明らかとなった。
誤り率は社会集団によって異なり、男性や話者の年齢スペクトルの極端におけるエラー頻度は高い。
これらの結果は、ASRの誤りはランダムではなく社会的パターンであり、社会言語学的観点から説明できることを示している。
このように、この研究は、社会言語学の専門知識を音声技術の評価と開発に取り入れることの重要性を実証し、より公平なASRシステムは方言の変化とコミュニティベースの音声データに明確な注意が必要であると主張している。
関連論文リスト
- WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - A Sociophonetic Analysis of Racial Bias in Commercial ASR Systems Using the Pacific Northwest English Corpus [6.361208877327219]
本稿では,4大商用自動音声認識(ASR)システムにおける人種バイアスの体系的評価について述べる。
我々は,4つの民族的背景(アフリカ系アメリカ人,コーカサス系アメリカ人,チカンX,ヤカマ)から話者間での転写精度を分析し,社会音の変動がシステム性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-10-26T02:19:40Z) - Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens [0.42970700836450487]
特定の言語品種の体系的誤認識は、技術的な制限以上のものであると論じる。
我々は、ASRバイアスと他のアルゴリズム的公正度とを区別する音声技術の3つのユニークな倫理的次元を同定する。
論文 参考訳(メタデータ) (2025-08-10T02:26:47Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Automatic Speech Recognition Biases in Newcastle English: an Error Analysis [0.8602553195689513]
本研究では,地域方言であるニューカッスル英語におけるASRの性能について検討した。
まず,ASRの誤認識の背後にある重要な音韻,語彙,形態的誤りを同定したサブサンプルのマニュアルエラー解析を行った。
その結果、ASRの誤りは地域方言の特徴と直接相関し、社会要因はASRのミスマッチにおいてより少ない役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-19T19:24:12Z) - CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。