論文の概要: Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech
- arxiv url: http://arxiv.org/abs/2405.06150v1
- Date: Fri, 10 May 2024 00:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:06:55.277235
- Title: Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech
- Title(参考訳): 書き起こしにおける損失:分散音声に対する自動音声認識システムの精度バイアスの同定と定量化
- Authors: Dena Mujtaba, Nihar R. Mahapatra, Megan Arney, J. Scott Yaruss, Hope Gerlach-Houck, Caryn Herring, Jia Bin,
- Abstract要約: 音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems, increasingly prevalent in education, healthcare, employment, and mobile technology, face significant challenges in inclusivity, particularly for the 80 million-strong global community of people who stutter. These systems often fail to accurately interpret speech patterns deviating from typical fluency, leading to critical usability issues and misinterpretations. This study evaluates six leading ASRs, analyzing their performance on both a real-world dataset of speech samples from individuals who stutter and a synthetic dataset derived from the widely-used LibriSpeech benchmark. The synthetic dataset, uniquely designed to incorporate various stuttering events, enables an in-depth analysis of each ASR's handling of disfluent speech. Our comprehensive assessment includes metrics such as word error rate (WER), character error rate (CER), and semantic accuracy of the transcripts. The results reveal a consistent and statistically significant accuracy bias across all ASRs against disfluent speech, manifesting in significant syntactical and semantic inaccuracies in transcriptions. These findings highlight a critical gap in current ASR technologies, underscoring the need for effective bias mitigation strategies. Addressing this bias is imperative not only to improve the technology's usability for people who stutter but also to ensure their equitable and inclusive participation in the rapidly evolving digital landscape.
- Abstract(参考訳): 教育、医療、雇用、モバイル技術でますます普及している自動音声認識システム(ASR)は、特に8千万人の世界社会において、インクリビティにおいて大きな課題に直面している。
これらのシステムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながることが多い。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
この合成データセットは、様々なスタブリングイベントを組み込むように設計されており、各ASRの非流動音声処理の詳細な分析を可能にする。
包括的評価には、単語誤り率(WER)、文字誤り率(CER)、テキストの意味的精度などが含まれる。
以上の結果から,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
これらの知見は、現在のASR技術における重要なギャップを浮き彫りにしており、効果的なバイアス緩和戦略の必要性を浮き彫りにしている。
このバイアスに対処することは、テクノロジーのユーザビリティを向上させるだけでなく、急速に進化するデジタルランドスケープへの公平で包括的な参加を確保するためにも不可欠である。
関連論文リスト
- Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers [25.466850759460364]
ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
ASTERは5種類のスタブリングを注入することで有効なテストケースを生成する。
評価されたASRシステムでは,単語誤り率,一致誤り率,単語情報損失を著しく増大させる。
論文 参考訳(メタデータ) (2023-08-30T03:46:52Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - The effect of speech pathology on automatic speaker verification -- a
large-scale study [6.468412158245622]
病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
論文 参考訳(メタデータ) (2022-04-13T15:17:00Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。