論文の概要: Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants
- arxiv url: http://arxiv.org/abs/2405.19342v1
- Date: Tue, 14 May 2024 12:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-02 14:20:20.424629
- Title: Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants
- Title(参考訳): Sonos音声制御バイアスアセスメントデータセット:音声アシスタントにおけるデモグラフィックバイアスアセスメント手法
- Authors: Chloé Sekkat, Fanny Leroy, Salima Mdhaffar, Blake Perry Smith, Yannick Estève, Joseph Dureau, Alice Coucke,
- Abstract要約: 本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
- 参考スコア(独自算出の注目度): 10.227469020901232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works demonstrate that voice assistants do not perform equally well for everyone, but research on demographic robustness of speech technologies is still scarce. This is mainly due to the rarity of large datasets with controlled demographic tags. This paper introduces the Sonos Voice Control Bias Assessment Dataset, an open dataset composed of voice assistant requests for North American English in the music domain (1,038 speakers, 166 hours, 170k audio samples, with 9,040 unique labelled transcripts) with a controlled demographic diversity (gender, age, dialectal region and ethnicity). We also release a statistical demographic bias assessment methodology, at the univariate and multivariate levels, tailored to this specific use case and leveraging spoken language understanding metrics rather than transcription accuracy, which we believe is a better proxy for user experience. To demonstrate the capabilities of this dataset and statistical method to detect demographic bias, we consider a pair of state-of-the-art Automatic Speech Recognition and Spoken Language Understanding models. Results show statistically significant differences in performance across age, dialectal region and ethnicity. Multivariate tests are crucial to shed light on mixed effects between dialectal region, gender and age.
- Abstract(参考訳): 最近の研究は、音声アシスタントが全員に等しく機能しないことを示しているが、音声技術の人口統計学的堅牢性の研究はいまだに少ない。
これは主に、制御された人口統計タグを持つ大規模なデータセットの希少性に起因する。
本稿では,音楽分野における北米英語の音声アシスタント要求(1,038人,166時間,170kの音声サンプル,9,040の独特なラベル付き転写文字を含む)からなるオープンデータセットであるSonos Voice Control Bias Assessment Datasetを紹介する。
また,一変量・多変量レベルの統計的人口統計バイアス評価手法を,この特定のユースケースに合わせて,文字起こし精度よりも音声言語理解指標を活用することで,ユーザエクスペリエンスの指標として優れたものと考えている。
このデータセットと統計学的手法による人口統計バイアスの検出能力を実証するために,最先端の音声認識モデルと音声言語理解モデルについて検討する。
その結果、年齢、方言地域、民族間での成績の統計的に有意な差が見られた。
多変量検査は、方言領域、性別、年齢の混合効果に光を放つために重要である。
関連論文リスト
- Demographic Attributes Prediction from Speech Using WavLM Embeddings [25.00298717665857]
本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。
提案フレームワークは,年齢予測のための平均絶対誤差(MAE)が4.94で,性別分類のための99.81%以上の精度で達成されている。
論文 参考訳(メタデータ) (2025-02-17T16:43:47Z) - Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data [13.91630413828167]
本研究は,オランダ語音声データに基づくWhisperモデルの性能格差の同定に焦点をあてる。
性別グループ間の単語誤り率,文字誤り率,BERTに基づく意味的類似性を解析した。
論文 参考訳(メタデータ) (2024-11-14T13:29:09Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。