論文の概要: AequeVox: Automated Fairness Testing of Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2110.09843v1
- Date: Tue, 19 Oct 2021 10:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:15:56.813371
- Title: AequeVox: Automated Fairness Testing of Speech Recognition Systems
- Title(参考訳): AequeVox:音声認識システムのフェアネス自動テスト
- Authors: Sai Sathiesh Rajan (1), Sakshi Udeshi (1), and Sudipta Chattopadhyay
(1) ((1) Singapore University of Technology and Design)
- Abstract要約: 本稿では,音声認識システムの公平性を評価するための自動テストフレームワークであるAequeVoxを紹介する。
AequeVoxは異なる環境をシミュレートし、異なる集団に対するASRシステムの有効性を評価する。
また,これらの環境に対して頑健でない単語を識別するフォールトローカライゼーション手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems have become ubiquitous. They can
be found in a variety of form factors and are increasingly important in our
daily lives. As such, ensuring that these systems are equitable to different
subgroups of the population is crucial. In this paper, we introduce, AequeVox,
an automated testing framework for evaluating the fairness of ASR systems.
AequeVox simulates different environments to assess the effectiveness of ASR
systems for different populations. In addition, we investigate whether the
chosen simulations are comprehensible to humans. We further propose a fault
localization technique capable of identifying words that are not robust to
these varying environments. Both components of AequeVox are able to operate in
the absence of ground truth data.
We evaluated AequeVox on speech from four different datasets using three
different commercial ASRs. Our experiments reveal that non-native English,
female and Nigerian English speakers generate 109%, 528.5% and 156.9% more
errors, on average than native English, male and UK Midlands speakers,
respectively. Our user study also reveals that 82.9% of the simulations
(employed through speech transformations) had a comprehensibility rating above
seven (out of ten), with the lowest rating being 6.78. This further validates
the fairness violations discovered by AequeVox. Finally, we show that the
non-robust words, as predicted by the fault localization technique embodied in
AequeVox, show 223.8% more errors than the predicted robust words across all
ASRs.
- Abstract(参考訳): 音声認識システム(ASR)が普及している。
様々な形態の要素から発見することができ、私たちの日常生活においてますます重要になっている。
したがって、これらのシステムが人口の異なる部分群に等しくしていることを保証することは重要である。
本稿では,ASRシステムの公正性を評価する自動テストフレームワークであるAequeVoxを紹介する。
AequeVoxは異なる環境をシミュレートし、異なる人口に対するASRシステムの有効性を評価する。
また,選択したシミュレーションが人間に理解できるかどうかについても検討する。
さらに,これらの環境に対して頑健でない単語を識別できる障害位置推定手法を提案する。
AequeVoxのどちらのコンポーネントも、真理データがない状態で動作可能である。
AequeVoxを3種類の商用ASRを用いて4種類のデータセットから評価した。
実験の結果,非ネイティブ英語話者,女性英語話者,ナイジェリア英語話者が,それぞれ109%,528.5%,および156.9%のエラーを発生させることがわかった。
ユーザ調査の結果、82.9%のシミュレーション(音声変換による雇用)が7点(10点満点中)以上で、最も低い評価は6.78点であった。
これにより、AequeVoxによって発見された公正違反がさらに検証される。
最後に,aequevoxに具現化された故障位置推定手法によって予測される非ロバスト語は,すべてのasrで予測された頑健な単語よりも223.8%高い誤差を示した。
関連論文リスト
- DENOASR: Debiasing ASRs through Selective Denoising [5.544079217915537]
本稿では,2つの性別グループ間の単語誤り率の相違を低減するために,選択的なデノケーション手法であるDeNOASRを提案する。
一般的な2つの音声認識手法である「DEMUCS」と「LE」を組み合わせることで、全体的な性能を損なうことなく、ASRの相違を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-10-22T05:39:24Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Exploring the Robustness of Task-oriented Dialogue Systems for
Colloquial German Varieties [29.005455590041503]
我々は、意図認識とスロット充足のための共同モデルを英語で訓練し、それを他の言語に適用する。
英語の品種に関する先行研究に触発されて、ドイツ語の文を口語形式に変換する摂動規則を手作業で作成し、評価する。
ToDシステムでは,口語品種に適用した場合,意図認識性能を維持し,平均精度で6%(4.62ポイント)の精度が低下することが実証された。
論文 参考訳(メタデータ) (2024-02-03T08:16:43Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Language Dependencies in Adversarial Attacks on Speech Recognition
Systems [0.0]
我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。
一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
論文 参考訳(メタデータ) (2022-02-01T13:27:40Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。