論文の概要: Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset
- arxiv url: http://arxiv.org/abs/2306.03773v1
- Date: Thu, 1 Jun 2023 11:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:37:59.894450
- Title: Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset
- Title(参考訳): いくつかの音声はあまりにも一般的である:共通音声データセットを用いた公正な音声認識システムの構築
- Authors: Lucas Maison, Yannick Est\`eve
- Abstract要約: 我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition (ASR) systems become increasingly efficient
thanks to new advances in neural network training like self-supervised
learning. However, they are known to be unfair toward certain groups, for
instance, people speaking with an accent. In this work, we use the French
Common Voice dataset to quantify the biases of a pre-trained wav2vec~2.0 model
toward several demographic groups. By fine-tuning the pre-trained model on a
variety of fixed-size, carefully crafted training sets, we demonstrate the
importance of speaker diversity. We also run an in-depth analysis of the Common
Voice corpus and identify important shortcomings that should be taken into
account by users of this dataset.
- Abstract(参考訳): 自動音声認識(ASR)システムは、自己教師付き学習のようなニューラルネットワークトレーニングの新たな進歩により、効率が向上する。
しかし、特定のグループ、例えばアクセントで話す人々に対して不公平であることが知られている。
本研究では,前訓練されたwav2vec~2.0モデルのバイアスを数集団に対して定量化するために,フランスの共通音声データセットを用いた。
各種の定型的・精巧な訓練セットに事前学習モデルを微調整することにより,話者多様性の重要性を実証する。
また、共通音声コーパスの詳細な分析を行い、このデータセットのユーザが考慮すべき重要な欠点を特定します。
関連論文リスト
- Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。