論文の概要: Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia
- arxiv url: http://arxiv.org/abs/2506.08846v1
- Date: Tue, 10 Jun 2025 14:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.580314
- Title: Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia
- Title(参考訳): 自動音声認識技術の実践における落とし穴への対処:失語症患者を事例として
- Authors: Katelyn Xiaoying Mei, Anna Seo Gyeong Choi, Hilke Schellmann, Mona Sloane, Allison Koenecke,
- Abstract要約: 監査人は、データ前処理中に単一のテキスト標準化手法に固執することが多い。
第3に、監査はしばしば単一のゴールド標準指標であるWord Error Rateに依存している。
これら3つの落とし穴を考慮に入れた,より包括的な監査フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) has transformed daily tasks from video transcription to workplace hiring. ASR systems' growing use warrants robust and standardized auditing approaches to ensure automated transcriptions of high and equitable quality. This is especially critical for people with speech and language disorders (such as aphasia) who may disproportionately depend on ASR systems to navigate everyday life. In this work, we identify three pitfalls in existing standard ASR auditing procedures, and demonstrate how addressing them impacts audit results via a case study of six popular ASR systems' performance for aphasia speakers. First, audits often adhere to a single method of text standardization during data pre-processing, which (a) masks variability in ASR performance from applying different standardization methods, and (b) may not be consistent with how users - especially those from marginalized speech communities - would want their transcriptions to be standardized. Second, audits often display high-level demographic findings without further considering performance disparities among (a) more nuanced demographic subgroups, and (b) relevant covariates capturing acoustic information from the input audio. Third, audits often rely on a single gold-standard metric -- the Word Error Rate -- which does not fully capture the extent of errors arising from generative AI models, such as transcription hallucinations. We propose a more holistic auditing framework that accounts for these three pitfalls, and exemplify its results in our case study, finding consistently worse ASR performance for aphasia speakers relative to a control group. We call on practitioners to implement these robust ASR auditing practices that remain flexible to the rapidly changing ASR landscape.
- Abstract(参考訳): 自動音声認識(ASR)は、日々のタスクをビデオの書き起こしから職場での雇用へと変えてきた。
ASRシステムの利用増加は、高品質で公平な自動転写を保証するために、堅牢で標準化された監査アプローチを保証している。
これは、言語障害や失語症(失語症など)を持つ人々にとって特に重要である。
本研究では,既存の標準ASR監査手順における落とし穴を3つ同定し,その対処が,失語症話者に対する6つの一般的なASRシステムの性能のケーススタディを通じて,監査結果に与える影響を実証する。
まず、監査はデータ前処理中に単一のテキスト標準化の手法に固執することが多い。
(a)異なる標準化手法の適用によるASR性能の変動
(b) ユーザーが(特に音声コミュニティを疎外した人たち)どのように書き起こしを標準化したいかとは一致していないかもしれない。
第二に、監査では、パフォーマンス格差を考慮せずに、高水準の人口統計結果がしばしば表示される。
(a)より微妙な人口集団、及び
(b)入力音声から音響情報をキャプチャする関連変数。
第3に、監査は1つのゴールド標準指標であるワードエラー率(Word Error Rate)に依存していることが多い。
本稿では,これら3つの落とし穴を考慮に入れたより総合的な監査フレームワークを提案し,その結果を事例研究で例示し,対照群と比較して失語症話者のASRパフォーマンスが一貫して悪化していることを見出した。
我々は,急速に変化するASRの状況に対してフレキシブルな,堅牢なASR監査の実践を実践者に呼びかける。
関連論文リスト
- Measuring the Accuracy of Automatic Speech Recognition Solutions [4.99320937849508]
音声認識(ASR)は現在、多くの一般的なアプリケーションの一部となっている。
高等教育講座の講義記録を用いて,11種類の一般的なASRサービスの性能を測定した。
以上の結果から,ベンダー間および個々のオーディオサンプルに対して,精度が広範囲に及んでいることが示唆された。
また,ライブイベントに使用されるASRのストリーミング品質も著しく低下した。
論文 参考訳(メタデータ) (2024-08-29T06:38:55Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Cross-Modal ASR Post-Processing System for Error Correction and
Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。
音響的特徴とテキスト的特徴を異なるモダリティから融合させる。
マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文 参考訳(メタデータ) (2022-01-10T12:29:55Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。