論文の概要: Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants
- arxiv url: http://arxiv.org/abs/2405.19342v1
- Date: Tue, 14 May 2024 12:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-02 14:20:20.424629
- Title: Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants
- Title(参考訳): Sonos音声制御バイアスアセスメントデータセット:音声アシスタントにおけるデモグラフィックバイアスアセスメント手法
- Authors: Chloé Sekkat, Fanny Leroy, Salima Mdhaffar, Blake Perry Smith, Yannick Estève, Joseph Dureau, Alice Coucke,
- Abstract要約: 本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
- 参考スコア(独自算出の注目度): 10.227469020901232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works demonstrate that voice assistants do not perform equally well for everyone, but research on demographic robustness of speech technologies is still scarce. This is mainly due to the rarity of large datasets with controlled demographic tags. This paper introduces the Sonos Voice Control Bias Assessment Dataset, an open dataset composed of voice assistant requests for North American English in the music domain (1,038 speakers, 166 hours, 170k audio samples, with 9,040 unique labelled transcripts) with a controlled demographic diversity (gender, age, dialectal region and ethnicity). We also release a statistical demographic bias assessment methodology, at the univariate and multivariate levels, tailored to this specific use case and leveraging spoken language understanding metrics rather than transcription accuracy, which we believe is a better proxy for user experience. To demonstrate the capabilities of this dataset and statistical method to detect demographic bias, we consider a pair of state-of-the-art Automatic Speech Recognition and Spoken Language Understanding models. Results show statistically significant differences in performance across age, dialectal region and ethnicity. Multivariate tests are crucial to shed light on mixed effects between dialectal region, gender and age.
- Abstract(参考訳): 最近の研究は、音声アシスタントが全員に等しく機能しないことを示しているが、音声技術の人口統計学的堅牢性の研究はいまだに少ない。
これは主に、制御された人口統計タグを持つ大規模なデータセットの希少性に起因する。
本稿では,音楽分野における北米英語の音声アシスタント要求(1,038人,166時間,170kの音声サンプル,9,040の独特なラベル付き転写文字を含む)からなるオープンデータセットであるSonos Voice Control Bias Assessment Datasetを紹介する。
また,一変量・多変量レベルの統計的人口統計バイアス評価手法を,この特定のユースケースに合わせて,文字起こし精度よりも音声言語理解指標を活用することで,ユーザエクスペリエンスの指標として優れたものと考えている。
このデータセットと統計学的手法による人口統計バイアスの検出能力を実証するために,最先端の音声認識モデルと音声言語理解モデルについて検討する。
その結果、年齢、方言地域、民族間での成績の統計的に有意な差が見られた。
多変量検査は、方言領域、性別、年齢の混合効果に光を放つために重要である。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。