論文の概要: Toward Fairness in Speech Recognition: Discovery and mitigation of
performance disparities
- arxiv url: http://arxiv.org/abs/2207.11345v1
- Date: Fri, 22 Jul 2022 21:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:28:53.198487
- Title: Toward Fairness in Speech Recognition: Discovery and mitigation of
performance disparities
- Title(参考訳): 音声認識の公平性に向けて:性能格差の発見と緩和
- Authors: Pranav Dheram, Murugesan Ramakrishnan, Anirudh Raju, I-Fan Chen, Brian
King, Katherine Powell, Melissa Saboowala, Karan Shetty, Andreas Stolcke
- Abstract要約: 製品規模のAIアシスタント音声認識システムから得られたデータを用いて,性能格差の発見と緩和の両面での最初の発見を報告する。
公平さを緩和するために、表現不足のコホートのオーバーサンプリングや、追加入力変数による話者コホートメンバシップのモデル化は、トップとボトムのパフォーマンスのコホート間のギャップを減少させる。
- 参考スコア(独自算出の注目度): 10.917512121301135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As for other forms of AI, speech recognition has recently been examined with
respect to performance disparities across different user cohorts. One approach
to achieve fairness in speech recognition is to (1) identify speaker cohorts
that suffer from subpar performance and (2) apply fairness mitigation measures
targeting the cohorts discovered. In this paper, we report on initial findings
with both discovery and mitigation of performance disparities using data from a
product-scale AI assistant speech recognition system. We compare cohort
discovery based on geographic and demographic information to a more scalable
method that groups speakers without human labels, using speaker embedding
technology. For fairness mitigation, we find that oversampling of
underrepresented cohorts, as well as modeling speaker cohort membership by
additional input variables, reduces the gap between top- and bottom-performing
cohorts, without deteriorating overall recognition accuracy.
- Abstract(参考訳): その他のAIの形式については、最近、異なるユーザコホート間のパフォーマンス格差に関して音声認識が検討されている。
音声認識における公平性を実現する1つのアプローチは、(1)サブパーパフォーマンスに苦しむ話者コホートを識別し、(2)発見したコホートを対象とする公平性軽減策を適用することである。
本稿では,製品規模のAIアシスタント音声認識システムから得られたデータを用いて,性能格差の発見と緩和の両面での初期発見について報告する。
地理情報と人口統計情報に基づくコホート発見と,話者ラベルのない話者をグループ化するよりスケーラブルな手法を比較し,話者埋め込み技術を用いて検討した。
公平さを緩和するために、表現不足のコホートのオーバーサンプリングや、追加入力変数による話者コホートメンバシップのモデル化は、全体的な認識精度を低下させることなく、トップとボトムパフォーマンスのコホート間のギャップを減少させる。
関連論文リスト
- DENOASR: Debiasing ASRs through Selective Denoising [5.544079217915537]
本稿では,2つの性別グループ間の単語誤り率の相違を低減するために,選択的なデノケーション手法であるDeNOASRを提案する。
一般的な2つの音声認識手法である「DEMUCS」と「LE」を組み合わせることで、全体的な性能を損なうことなく、ASRの相違を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-10-22T05:39:24Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。