論文の概要: Towards measuring fairness in speech recognition: Fair-Speech dataset
- arxiv url: http://arxiv.org/abs/2408.12734v1
- Date: Thu, 22 Aug 2024 20:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 16:38:31.560870
- Title: Towards measuring fairness in speech recognition: Fair-Speech dataset
- Title(参考訳): 音声認識における公正度測定に向けて:Fair-Speech データセット
- Authors: Irina-Elena Veliche, Zhuangqun Huang, Vineeth Ayyat Kochaniyan, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer,
- Abstract要約: 本論文では,ASRモデルの精度評価を支援するために,新たなデータセットであるFair-Speechを紹介した。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
- 参考スコア(独自算出の注目度): 14.703638352216132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current public datasets for speech recognition (ASR) tend not to focus specifically on the fairness aspect, such as performance across different demographic groups. This paper introduces a novel dataset, Fair-Speech, a publicly released corpus to help researchers evaluate their ASR models for accuracy across a diverse set of self-reported demographic information, such as age, gender, ethnicity, geographic variation and whether the participants consider themselves native English speakers. Our dataset includes approximately 26.5K utterances in recorded speech by 593 people in the United States, who were paid to record and submit audios of themselves saying voice commands. We also provide ASR baselines, including on models trained on transcribed and untranscribed social media videos and open source models.
- Abstract(参考訳): 音声認識のための現在のパブリックデータセット(ASR)は、異なる人口集団間でのパフォーマンスなど、公平性に特に焦点を絞らない傾向にある。
本論文では, 年齢, 性別, 民族性, 地理的変動, 参加者が母国英語話者とみなすか否かなどの, 多様な自己申告された人口統計情報に対して, 研究者がASRモデルを精度良く評価するのを支援するための, 公開コーパスであるFair-Speechを紹介する。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
ASRのベースラインも提供しています。その中には、書き起こされたり書き起こされたりしていないソーシャルメディアビデオやオープンソースモデルでトレーニングされたモデルも含まれています。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文 参考訳(メタデータ) (2024-05-14T12:53:32Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - The Casual Conversations v2 Dataset [6.439761523935614]
データセットには、5,567人のユニークな有料参加者による26,467の動画が含まれており、平均して1人あたりの動画数は5本である。
参加者は、AIモデルの公正性を評価するためにデータを使用することに同意し、自己申告された年齢、性別、言語/方言、障害ステータス、身体的装飾、物理的属性、位置情報を提供した。
論文 参考訳(メタデータ) (2023-03-08T19:17:05Z) - ASR Bundestag: A Large-Scale political debate dataset in German [0.0]
本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagを提案する。
データセットは、教師付きトレーニングに610時間、自己教師型学習に1,038時間、アライメントされたオーディオ書き起こしペアで構成されている。
論文 参考訳(メタデータ) (2023-02-12T21:45:18Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Personalized Automatic Speech Recognition Trained on Small Disordered
Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。
ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文 参考訳(メタデータ) (2021-10-09T17:11:17Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。