論文の概要: Quantifying Bias in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2103.15122v1
- Date: Sun, 28 Mar 2021 12:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:43:53.498209
- Title: Quantifying Bias in Automatic Speech Recognition
- Title(参考訳): 自動音声認識におけるバイアスの定量化
- Authors: Siyuan Feng, Olya Kudina, Bence Mark Halpern and Odette Scharenborg
- Abstract要約: State-of-the-art (SotA) ASRは、性別、年齢、言語障害、人種、アクセントによる発話のばらつきに苦しむ。
本稿では,性別,年齢,地域アクセント,非ネイティブアクセントに対するSotA ASRシステムのバイアスを体系的に定量化する。
- 参考スコア(独自算出の注目度): 28.301997555189462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems promise to deliver objective
interpretation of human speech. Practice and recent evidence suggests that the
state-of-the-art (SotA) ASRs struggle with speech variance due to gender, age,
speech impairment, race, and accents. Many factors can cause the bias of an ASR
system, e.g. composition of the training material and articulation differences.
Our overarching goal is to uncover bias in ASR systems to work towards
proactive bias mitigation in ASR. This paper systematically quantifies the bias
of a SotA ASR system against gender, age, regional accents and non-native
accents. Word error rates are compared, and in-depth phoneme-level error
analysis is conducted to understand where bias is occurring. We focus on bias
due to articulation differences in the dataset. Based on our findings, we
suggest bias mitigation strategies for ASR development.
- Abstract(参考訳): 自動音声認識(ASR)システムは、人間の発話を客観的に解釈することを約束する。
実践的および最近の証拠は、最先端(SotA)のASRが、性別、年齢、言語障害、人種、アクセントによる発話のばらつきに苦しむことを示唆している。
多くの要因がASRシステムのバイアスを引き起こすことがある。
訓練材料の構成と調音の相違。
我々の包括的なゴールは、ASRシステムのバイアスを明らかにすることであり、ASRの積極的なバイアス緩和に向けたものである。
本稿では,性別,年齢,地域アクセント,非ネイティブアクセントに対するSotA ASRシステムのバイアスを体系的に定量化する。
単語の誤り率を比較し, 音素レベルの誤り分析を行い, バイアスの発生箇所を理解する。
データセットの明瞭性の違いによるバイアスに焦点を当てる。
以上の結果から,ASR開発におけるバイアス緩和戦略を提案する。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech [0.0]
音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
論文 参考訳(メタデータ) (2024-05-10T00:16:58Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Language Dependencies in Adversarial Attacks on Speech Recognition
Systems [0.0]
我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。
一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
論文 参考訳(メタデータ) (2022-02-01T13:27:40Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。