論文の概要: Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance
- arxiv url: http://arxiv.org/abs/2407.13982v1
- Date: Fri, 19 Jul 2024 02:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:03:23.446247
- Title: Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance
- Title(参考訳): 音声認識性能における声道差の再検討 : 提示による結語の役割
- Authors: Changye Li, Trevor Cohen, Serguei Pakhomov,
- Abstract要約: 自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
- 参考スコア(独自算出の注目度): 7.882996636086014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition (ASR) models trained on large amounts of audio data are now widely used to convert speech to written text in a variety of applications from video captioning to automated assistants used in healthcare and other domains. As such, it is important that ASR models and their use is fair and equitable. Prior work examining the performance of commercial ASR systems on the Corpus of Regional African American Language (CORAAL) demonstrated significantly worse ASR performance on African American English (AAE). The current study seeks to understand the factors underlying this disparity by examining the performance of the current state-of-the-art neural network based ASR system (Whisper, OpenAI) on the CORAAL dataset. Two key findings have been identified as a result of the current study. The first confirms prior findings of significant dialectal variation even across neighboring communities, and worse ASR performance on AAE that can be improved to some extent with fine-tuning of ASR models. The second is a novel finding not discussed in prior work on CORAAL: differences in audio recording practices within the dataset have a significant impact on ASR accuracy resulting in a ``confounding by provenance'' effect in which both language use and recording quality differ by study location. These findings highlight the need for further systematic investigation to disentangle the effects of recording quality and inherent linguistic diversity when examining the fairness and bias present in neural ASR models, as any bias in ASR accuracy may have negative downstream effects on disparities in various domains of life in which ASR technology is used.
- Abstract(参考訳): 大量のオーディオデータに基づいて訓練された自動音声認識(ASR)モデルは、ビデオキャプションから医療やその他の領域で使用される自動アシスタントまで、さまざまなアプリケーションで音声をテキストに変換するために広く使用されている。
そのため、ASRモデルとその使用法が公平で公平であることが重要である。
地域アフリカ系アメリカ人言語コーパス(CORAAL)の商業的ASRシステムの性能を調べる以前の研究は、アフリカ系アメリカ人英語(AAE)のASR性能を著しく悪化させた。
現在の研究では、CORAALデータセット上での現在の最先端ニューラルネットワークベースのASRシステム(Whisper、OpenAI)のパフォーマンスを調べることで、この格差の根底にある要因を理解することを目指している。
この研究の結果、2つの重要な発見が判明した。
第1報では, 近隣地域においても有意な方言変化が認められたこと, AAE の ASR 性能は, ASR モデルの微調整によりある程度改善可能であることを確認した。
2つ目は、データセット内の音声録音の実践の違いがASRの精度に重大な影響を及ぼし、その結果、言語使用と記録品質の両方が研究場所によって異なるという、'confounding by provenance'効果が生じるという、CORAALに関する以前の研究で議論されていない新しい発見である。
これらの知見は、ASRの精度のバイアスが、ASR技術が用いられている様々な生命領域の格差に負の下流効果をもたらす可能性があるため、神経性ASRモデルに存在する公正性と偏見を調べる際に、記録品質と固有の言語多様性の影響を解消するためのさらなる体系的な研究の必要性を浮き彫りにしている。
関連論文リスト
- Quantification of stylistic differences in human- and ASR-produced transcripts of African American English [1.8021379035665333]
動詞と非動詞の区別は、ASRのパフォーマンス評価において重要な役割を果たす。
アフリカン・アメリカン・イングリッシュ・スピーチの10時間における6つの転写版と4つのASRと2つのASRのスタイリスティックな違いを分類した。
本稿では,これらのカテゴリ間の相互作用と,単語誤り率による書き起こしの精度について検討する。
論文 参考訳(メタデータ) (2024-09-04T20:18:59Z) - Measuring the Accuracy of Automatic Speech Recognition Solutions [4.99320937849508]
音声認識(ASR)は現在、多くの一般的なアプリケーションの一部となっている。
高等教育講座の講義記録を用いて,11種類の一般的なASRサービスの性能を測定した。
以上の結果から,ベンダー間および個々のオーディオサンプルに対して,精度が広範囲に及んでいることが示唆された。
また,ライブイベントに使用されるASRのストリーミング品質も著しく低下した。
論文 参考訳(メタデータ) (2024-08-29T06:38:55Z) - You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish [0.5249805590164903]
我々は,ASRの異なるサービスによって書き起こされたスウェーデン語の母国語,非母国語,読み,自発語に対する認識結果の差に着目した。
単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
論文 参考訳(メタデータ) (2024-05-22T06:24:55Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - A Deep Learning System for Domain-specific Speech Recognition [0.0]
著者らは、事前に訓練されたDeepSpeech2とWav2Vec2音響モデルを使って、利益特異的なASRシステムの開発を行っている。
最高の性能は、Wav2Vec2-Large-LV60音響モデルと外部KenLMから得られる。
また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。
論文 参考訳(メタデータ) (2023-03-18T22:19:09Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。