論文の概要: A Sociophonetic Analysis of Racial Bias in Commercial ASR Systems Using the Pacific Northwest English Corpus
- arxiv url: http://arxiv.org/abs/2510.22495v1
- Date: Sun, 26 Oct 2025 02:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.220736
- Title: A Sociophonetic Analysis of Racial Bias in Commercial ASR Systems Using the Pacific Northwest English Corpus
- Title(参考訳): 太平洋岸北西部英語コーパスを用いた商業ASRシステムにおけるラシアルバイアスの社会音韻解析
- Authors: Michael Scott, Siyu Liang, Alicia Wassink, Gina-Anne Levow,
- Abstract要約: 本稿では,4大商用自動音声認識(ASR)システムにおける人種バイアスの体系的評価について述べる。
我々は,4つの民族的背景(アフリカ系アメリカ人,コーカサス系アメリカ人,チカンX,ヤカマ)から話者間での転写精度を分析し,社会音の変動がシステム性能に与える影響について検討した。
- 参考スコア(独自算出の注目度): 6.361208877327219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a systematic evaluation of racial bias in four major commercial automatic speech recognition (ASR) systems using the Pacific Northwest English (PNWE) corpus. We analyze transcription accuracy across speakers from four ethnic backgrounds (African American, Caucasian American, ChicanX, and Yakama) and examine how sociophonetic variation contributes to differential system performance. We introduce a heuristically-determined Phonetic Error Rate (PER) metric that links recognition errors to specific linguistically motivated variables derived from sociophonetic annotation. Our analysis of eleven sociophonetic features reveals that vowel quality variation, particularly resistance to the low-back merger and pre-nasal merger patterns, is systematically associated with differential error rates across ethnic groups, with the most pronounced effects for African American speakers across all evaluated systems. These findings demonstrate that acoustic modeling of dialectal phonetic variation, rather than lexical or syntactic factors, remains a primary source of bias in commercial ASR systems. The study establishes the PNWE corpus as a valuable resource for bias evaluation in speech technologies and provides actionable guidance for improving ASR performance through targeted representation of sociophonetic diversity in training data.
- Abstract(参考訳): 本稿では,太平洋岸北西部英語コーパス(PNWE)を用いた4大商業自動音声認識(ASR)システムにおける人種バイアスの系統的評価について述べる。
我々は,4つの民族的背景(アフリカ系アメリカ人,コーカサス系アメリカ人,チカンX,ヤカマ)から話者間での転写精度を分析し,社会音の変動がシステム性能に与える影響について検討した。
本稿では,認識誤りを社会音韻アノテーションから派生した特定の言語的動機付け変数にリンクする,ヒューリスティックに決定された音声誤り率(PER)指標を提案する。
11種類の社会音韻の特徴を解析した結果,母音品質の変動,特に低調波合併や鼻前合併パターンに対する抵抗は,民族間差誤り率と系統的に関連し,全ての評価システムにおけるアフリカ系アメリカ人話者に対する最も顕著な影響が示された。
これらの結果は、語彙的・統語的要因ではなく、方言音韻変動の音響的モデリングが、商業的ASRシステムにおいて主要なバイアス源であることを示している。
本研究は, PNWEコーパスを音声技術におけるバイアス評価のための貴重な資源として確立し, 学習データにおける社会音声の多様性を目標とする表現を通して, ASRの性能向上のための実用的なガイダンスを提供する。
関連論文リスト
- Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens [0.42970700836450487]
特定の言語品種の体系的誤認識は、技術的な制限以上のものであると論じる。
我々は、ASRバイアスと他のアルゴリズム的公正度とを区別する音声技術の3つのユニークな倫理的次元を同定する。
論文 参考訳(メタデータ) (2025-08-10T02:26:47Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。