Fugu-MT 論文翻訳(概要): Some voices are too common: Building fair speech recognition systems using the Common Voice dataset

論文の概要: Some voices are too common: Building fair speech recognition systems using the Common Voice dataset

arxiv url: http://arxiv.org/abs/2306.03773v1
Date: Thu, 1 Jun 2023 11:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-11 13:37:59.894450
Title: Some voices are too common: Building fair speech recognition systems using the Common Voice dataset
Title（参考訳）: いくつかの音声はあまりにも一般的である:共通音声データセットを用いた公正な音声認識システムの構築
Authors: Lucas Maison, Yannick Est\`eve
Abstract要約: 我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
参考スコア（独自算出の注目度）: 2.28438857884398
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automatic speech recognition (ASR) systems become increasingly efficient thanks to new advances in neural network training like self-supervised learning. However, they are known to be unfair toward certain groups, for instance, people speaking with an accent. In this work, we use the French Common Voice dataset to quantify the biases of a pre-trained wav2vec~2.0 model toward several demographic groups. By fine-tuning the pre-trained model on a variety of fixed-size, carefully crafted training sets, we demonstrate the importance of speaker diversity. We also run an in-depth analysis of the Common Voice corpus and identify important shortcomings that should be taken into account by users of this dataset.
Abstract（参考訳）: 自動音声認識(ASR)システムは、自己教師付き学習のようなニューラルネットワークトレーニングの新たな進歩により、効率が向上する。しかし、特定のグループ、例えばアクセントで話す人々に対して不公平であることが知られている。本研究では,前訓練されたwav2vec~2.0モデルのバイアスを数集団に対して定量化するために,フランスの共通音声データセットを用いた。各種の定型的・精巧な訓練セットに事前学習モデルを微調整することにより,話者多様性の重要性を実証する。また、共通音声コーパスの詳細な分析を行い、このデータセットのユーザが考慮すべき重要な欠点を特定します。

関連論文リスト

Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文参考訳（メタデータ） (2025-11-20T19:17:35Z)
Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文参考訳（メタデータ） (2023-02-24T22:38:54Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文参考訳（メタデータ） (2022-03-31T13:23:24Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。 AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文参考訳（メタデータ） (2021-10-14T12:32:40Z)
English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文参考訳（メタデータ） (2021-05-09T08:24:33Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Streaming Multi-talker Speech Recognition with Joint Speaker Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。 Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文参考訳（メタデータ） (2021-04-05T18:37:33Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Multi-talker ASR for an unknown number of sources: Joint training of source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。実験の結果,精度,音源分離,音声認識において有望な性能を示した。我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文参考訳（メタデータ） (2020-06-04T11:25:50Z)
Generative Adversarial Training Data Adaptation for Very Low-resource Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。 AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文参考訳（メタデータ） (2020-05-19T07:35:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。