論文の概要: The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese
- arxiv url: http://arxiv.org/abs/2402.07513v1
- Date: Mon, 12 Feb 2024 09:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:56:39.202779
- Title: The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese
- Title(参考訳): バランシング法:ポルトガルのASRビエイズをアンマスキーと緩和
- Authors: Ajinkya Kulkarni, Anna Tokareva, Rameez Qureshi, Miguel Couceiro
- Abstract要約: 本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。
調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。
オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
- 参考スコア(独自算出の注目度): 5.308321515594125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the field of spoken language understanding, systems like Whisper and
Multilingual Massive Speech (MMS) have shown state-of-the-art performances.
This study is dedicated to a comprehensive exploration of the Whisper and MMS
systems, with a focus on assessing biases in automatic speech recognition (ASR)
inherent to casual conversation speech specific to the Portuguese language. Our
investigation encompasses various categories, including gender, age, skin tone
color, and geo-location. Alongside traditional ASR evaluation metrics such as
Word Error Rate (WER), we have incorporated p-value statistical significance
for gender bias analysis. Furthermore, we extensively examine the impact of
data distribution and empirically show that oversampling techniques alleviate
such stereotypical biases. This research represents a pioneering effort in
quantifying biases in the Portuguese language context through the application
of MMS and Whisper, contributing to a better understanding of ASR systems'
performance in multilingual settings.
- Abstract(参考訳): 言語理解の分野では、Whisper や Multilingual Massive Speech (MMS) のようなシステムが最先端のパフォーマンスを示している。
本研究は,ポルトガル語特有のカジュアル会話音声に固有の自動音声認識(asr)におけるバイアス評価に焦点をあてた,whisperとmmsシステムの包括的探索に焦点をあてたものである。
調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。
単語誤り率(WER)などの従来のASR評価指標とともに、性別バイアス分析にp値の統計的意義を取り入れた。
さらに,データ分布の影響を詳細に検討し,オーバーサンプリング技術がステレオタイプバイアスを緩和することを示す。
この研究は、MMSとWhisperの応用を通じて、ポルトガル語の文脈におけるバイアスを定量化するための先駆的な取り組みであり、多言語環境でのASRシステムの性能の理解に寄与している。
関連論文リスト
- SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - SSHR: Leveraging Self-supervised Hierarchical Representations for
Multilingual Automatic Speech Recognition [10.44087280231453]
本稿では,多言語自動音声認識のための新しい手法を提案する。
まず、言語関連およびコンテンツ関連情報に対してSSLモデルの異なるレイヤを解析する。
相関した中間層から言語関連フレームを抽出し,自己認識機構を通じて特定のコンテンツ抽出を誘導する。
論文 参考訳(メタデータ) (2023-09-29T02:35:36Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Language identification as improvement for lip-based biometric visual
systems [13.205817167773443]
本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報を軟式生体認証特性として用いる予備研究について述べる。
これらのデータの統合により,提案した視覚システムの識別性能が大幅に向上したことを報告した。
論文 参考訳(メタデータ) (2023-02-27T15:44:24Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Language Dependencies in Adversarial Attacks on Speech Recognition
Systems [0.0]
我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。
一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
論文 参考訳(メタデータ) (2022-02-01T13:27:40Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Gender Stereotype Reinforcement: Measuring the Gender Bias Conveyed by
Ranking Algorithms [68.85295025020942]
本稿では,性別ステレオタイプをサポートする検索エンジンの傾向を定量化するジェンダーステレオタイプ強化(GSR)尺度を提案する。
GSRは、表現上の害を定量化できる情報検索のための、最初の特別に調整された尺度である。
論文 参考訳(メタデータ) (2020-09-02T20:45:04Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。