論文の概要: Pre-trained Speech Processing Models Contain Human-Like Biases that
Propagate to Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2310.18877v1
- Date: Sun, 29 Oct 2023 02:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:53:59.516598
- Title: Pre-trained Speech Processing Models Contain Human-Like Biases that
Propagate to Speech Emotion Recognition
- Title(参考訳): 音声の感情認識に影響を及ぼす人間に似たバイアスを含む事前学習された音声処理モデル
- Authors: Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
- Abstract要約: 本研究では,多くの音声タスクに使用される1種類のモデルのバイアスを検出する手法であるSpeech Embedding Association Test(SpEAT)を提案する。
SpEATを用いて、16の英語音声モデルにおいて6種類のバイアスをテストした。
私たちの研究は、テキストや画像ベースのモデルのように、事前訓練された音声ベースのモデルは、しばしば人間のようなバイアスを学習する、という証拠を提供します。
- 参考スコア(独自算出の注目度): 4.4212441764241
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous work has established that a person's demographics and speech style
affect how well speech processing models perform for them. But where does this
bias come from? In this work, we present the Speech Embedding Association Test
(SpEAT), a method for detecting bias in one type of model used for many speech
tasks: pre-trained models. The SpEAT is inspired by word embedding association
tests in natural language processing, which quantify intrinsic bias in a
model's representations of different concepts, such as race or valence
(something's pleasantness or unpleasantness) and capture the extent to which a
model trained on large-scale socio-cultural data has learned human-like biases.
Using the SpEAT, we test for six types of bias in 16 English speech models
(including 4 models also trained on multilingual data), which come from the
wav2vec 2.0, HuBERT, WavLM, and Whisper model families. We find that 14 or more
models reveal positive valence (pleasantness) associations with abled people
over disabled people, with European-Americans over African-Americans, with
females over males, with U.S. accented speakers over non-U.S. accented
speakers, and with younger people over older people. Beyond establishing that
pre-trained speech models contain these biases, we also show that they can have
real world effects. We compare biases found in pre-trained models to biases in
downstream models adapted to the task of Speech Emotion Recognition (SER) and
find that in 66 of the 96 tests performed (69%), the group that is more
associated with positive valence as indicated by the SpEAT also tends to be
predicted as speaking with higher valence by the downstream model. Our work
provides evidence that, like text and image-based models, pre-trained speech
based-models frequently learn human-like biases. Our work also shows that bias
found in pre-trained models can propagate to the downstream task of SER.
- Abstract(参考訳): 過去の研究は、人の人口統計と発話スタイルが、音声処理モデルの性能にどのように影響するかを定めている。
しかし、このバイアスはどこから来るのか?
本稿では,多くの音声タスクで使用される一種類のモデルにおけるバイアス検出手法であるspeat( speech embedded association test)について述べる。
speatは自然言語処理における単語埋め込み関連テストに触発され、人種やヴァレンス(何かの快適さや不快さ)といった異なる概念のモデル表現における内在的なバイアスを定量化し、大規模な社会文化的データに基づいて訓練されたモデルが人間のようなバイアスを学習した程度を捉えている。
SpEATを用いて、wav2vec 2.0、HuBERT、WavLM、Whisperモデルファミリーから得られた16の英語音声モデル(多言語データで訓練された4つのモデルを含む)の6種類のバイアスをテストする。
14以上のモデルから障害のある人に対するポジティブなヴァレンス(満足感)と、アフリカ系アメリカ人に対するヨーロッパ系アメリカ人、男性に対する女性、非アメリカアクセント話者に対する米国アクセント付き話者、高齢者に対する若者との関連が明らかになっている。
これらのバイアスを含む事前学習された音声モデルを確立するだけでなく、実世界への影響も示す。
プレトレーニングモデルで得られたバイアスと、音声感情認識(SER)タスクに適応した下流モデルのバイアスを比較し、96の試験(69%)において、SpEATで示される正の原子価とより関連がある群は、下流モデルにより高い原子価で話すように予測される傾向にあることを示した。
私たちの研究は、テキストや画像ベースのモデルと同様に、事前学習された音声ベースのモデルが人間のようなバイアスを頻繁に学習する証拠を提供します。
私たちの研究は、事前訓練されたモデルに見られるバイアスがserの下流タスクに伝播することを示している。
関連論文リスト
- Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Do self-supervised speech models develop human-like perception biases? [11.646802225841153]
本稿では,3種類の最先端自己教師型モデル(wav2vec 2.0, HuBERT, CPC)の表現空間について検討する。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母国語が知覚に与える影響を捉えるのに優れていることが示唆されている。
論文 参考訳(メタデータ) (2022-05-31T14:21:40Z) - Perceptimatic: A human speech perception benchmark for unsupervised
subword modelling [11.646802225841153]
音声識別タスクにおいて,音声処理モデルと人間の行動を比較するためのデータセットと手法を提案する。
我々は、フランス語と英語の音声刺激からなるオープンデータセットであるPerceptimaticと、91名の英語と93名のフランス語の聴取者の結果を提供する。
刺激は幅広いフランス語と英語のコントラストを検査し、自然な読み上げ音声のコーパスから直接抽出する。
教師なしモデルや教師付き多言語モデルとは異なり、標準教師付き単言語HMM-GMM音声認識システムでは、携帯電話の識別に長けながら、表現空間が非常に優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T18:40:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - StereoSet: Measuring stereotypical bias in pretrained language models [24.020149562072127]
我々は,4つの領域におけるステレオタイプバイアスを測定するために,英語の大規模自然データセットであるStereoSetを提案する。
我々は,BERT,GPT-2,RoBERTa,XLNetなどの人気モデルをデータセット上で評価し,これらのモデルが強いステレオタイプバイアスを示すことを示す。
論文 参考訳(メタデータ) (2020-04-20T17:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。