論文の概要: Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering
- arxiv url: http://arxiv.org/abs/2306.06083v1
- Date: Tue, 6 Jun 2023 21:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:50:07.319797
- Title: Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering
- Title(参考訳): 教師なしクラスタリングによるエンドツーエンド音声認識における公平性と頑健性の改善
- Authors: Irina-Elena Veliche, Pascale Fung
- Abstract要約: エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
- 参考スコア(独自算出の注目度): 49.069298478971696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of fairness arises when Automatic Speech Recognition (ASR)
systems do not perform equally well for all sub-groups of the population. In
the past few years there have been many improvements in overall speech
recognition quality, but without any particular focus on advancing Equality and
Equity for all user groups for whom systems do not perform well. ASR fairness
is therefore also a robustness issue. Meanwhile, data privacy also takes
priority in production systems. In this paper, we present a privacy preserving
approach to improve fairness and robustness of end-to-end ASR without using
metadata, zip codes, or even speaker or utterance embeddings directly in
training. We extract utterance level embeddings using a speaker ID model
trained on a public dataset, which we then use in an unsupervised fashion to
create acoustic clusters. We use cluster IDs instead of speaker utterance
embeddings as extra features during model training, which shows improvements
for all demographic groups and in particular for different accents.
- Abstract(参考訳): 公平性の課題は、自動音声認識(asr)システムが人口のすべてのサブグループに対して等しく機能しない場合に生じる。
過去数年間、音声認識全体の品質は改善されてきたが、システムがうまく機能しないすべてのユーザーグループに対する平等性と平等性に特に焦点が当てられていない。
したがって、ASRの公平性もまた堅牢性の問題である。
一方、データプライバシはプロダクションシステムにおいても優先される。
本稿では,エンド・ツー・エンドのasrの公平性と堅牢性を改善するために,メタデータやzipコード,さらには話者や発話を直接トレーニングに組み込むことなく,プライバシ保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出し、教師なしの方法で音響クラスタを作成する。
話者発話の埋め込みの代わりにクラスタIDをモデルトレーニングの余分な機能として使用し、すべての人口集団、特に異なるアクセントに対する改善を示す。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Voice Anonymization for All -- Bias Evaluation of the Voice Privacy
Challenge Baseline System [0.48342038441006807]
本研究では,ボイスプライバシチャレンジの文脈における音声匿名化システムのバイアスについて検討する。
我々は、性別と方言に基づいて、話者サブグループ間のパフォーマンス格差を評価するために、新しいベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-27T13:26:49Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。