論文の概要: Pre-trained Speech Processing Models Contain Human-Like Biases that
Propagate to Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2310.18877v1
- Date: Sun, 29 Oct 2023 02:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:53:59.516598
- Title: Pre-trained Speech Processing Models Contain Human-Like Biases that
Propagate to Speech Emotion Recognition
- Title(参考訳): 音声の感情認識に影響を及ぼす人間に似たバイアスを含む事前学習された音声処理モデル
- Authors: Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
- Abstract要約: 本研究では,多くの音声タスクに使用される1種類のモデルのバイアスを検出する手法であるSpeech Embedding Association Test(SpEAT)を提案する。
SpEATを用いて、16の英語音声モデルにおいて6種類のバイアスをテストした。
私たちの研究は、テキストや画像ベースのモデルのように、事前訓練された音声ベースのモデルは、しばしば人間のようなバイアスを学習する、という証拠を提供します。
- 参考スコア(独自算出の注目度): 4.4212441764241
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous work has established that a person's demographics and speech style
affect how well speech processing models perform for them. But where does this
bias come from? In this work, we present the Speech Embedding Association Test
(SpEAT), a method for detecting bias in one type of model used for many speech
tasks: pre-trained models. The SpEAT is inspired by word embedding association
tests in natural language processing, which quantify intrinsic bias in a
model's representations of different concepts, such as race or valence
(something's pleasantness or unpleasantness) and capture the extent to which a
model trained on large-scale socio-cultural data has learned human-like biases.
Using the SpEAT, we test for six types of bias in 16 English speech models
(including 4 models also trained on multilingual data), which come from the
wav2vec 2.0, HuBERT, WavLM, and Whisper model families. We find that 14 or more
models reveal positive valence (pleasantness) associations with abled people
over disabled people, with European-Americans over African-Americans, with
females over males, with U.S. accented speakers over non-U.S. accented
speakers, and with younger people over older people. Beyond establishing that
pre-trained speech models contain these biases, we also show that they can have
real world effects. We compare biases found in pre-trained models to biases in
downstream models adapted to the task of Speech Emotion Recognition (SER) and
find that in 66 of the 96 tests performed (69%), the group that is more
associated with positive valence as indicated by the SpEAT also tends to be
predicted as speaking with higher valence by the downstream model. Our work
provides evidence that, like text and image-based models, pre-trained speech
based-models frequently learn human-like biases. Our work also shows that bias
found in pre-trained models can propagate to the downstream task of SER.
- Abstract(参考訳): 過去の研究は、人の人口統計と発話スタイルが、音声処理モデルの性能にどのように影響するかを定めている。
しかし、このバイアスはどこから来るのか?
本稿では,多くの音声タスクで使用される一種類のモデルにおけるバイアス検出手法であるspeat( speech embedded association test)について述べる。
speatは自然言語処理における単語埋め込み関連テストに触発され、人種やヴァレンス(何かの快適さや不快さ)といった異なる概念のモデル表現における内在的なバイアスを定量化し、大規模な社会文化的データに基づいて訓練されたモデルが人間のようなバイアスを学習した程度を捉えている。
SpEATを用いて、wav2vec 2.0、HuBERT、WavLM、Whisperモデルファミリーから得られた16の英語音声モデル(多言語データで訓練された4つのモデルを含む)の6種類のバイアスをテストする。
14以上のモデルから障害のある人に対するポジティブなヴァレンス(満足感)と、アフリカ系アメリカ人に対するヨーロッパ系アメリカ人、男性に対する女性、非アメリカアクセント話者に対する米国アクセント付き話者、高齢者に対する若者との関連が明らかになっている。
これらのバイアスを含む事前学習された音声モデルを確立するだけでなく、実世界への影響も示す。
プレトレーニングモデルで得られたバイアスと、音声感情認識(SER)タスクに適応した下流モデルのバイアスを比較し、96の試験(69%)において、SpEATで示される正の原子価とより関連がある群は、下流モデルにより高い原子価で話すように予測される傾向にあることを示した。
私たちの研究は、テキストや画像ベースのモデルと同様に、事前学習された音声ベースのモデルが人間のようなバイアスを頻繁に学習する証拠を提供します。
私たちの研究は、事前訓練されたモデルに見られるバイアスがserの下流タスクに伝播することを示している。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Do self-supervised speech models develop human-like perception biases? [11.646802225841153]
本稿では,3種類の最先端自己教師型モデル(wav2vec 2.0, HuBERT, CPC)の表現空間について検討する。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母国語が知覚に与える影響を捉えるのに優れていることが示唆されている。
論文 参考訳(メタデータ) (2022-05-31T14:21:40Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。