論文の概要: Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics
- arxiv url: http://arxiv.org/abs/2206.03390v1
- Date: Tue, 7 Jun 2022 15:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:12:26.077103
- Title: Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics
- Title(参考訳): 単語埋め込みにおけるジェンダーバイアス:周波数・構文・意味論の包括的分析
- Authors: Aylin Caliskan, Pimparkar Parth Ajay, Tessa Charlesworth, Robert
Wolfe, Mahzarin R. Banaji
- Abstract要約: インターネットコーパスで学習した英語の静的単語埋め込みにおいて,グループベースのバイアスを包括的に分析する。
単一カテゴリー単語埋め込みアソシエーションテストを用いて,性別バイアスの広範性を示す。
語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があることがわかりました。
- 参考スコア(独自算出の注目度): 3.4048739113355215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The statistical regularities in language corpora encode well-known social
biases into word embeddings. Here, we focus on gender to provide a
comprehensive analysis of group-based biases in widely-used static English word
embeddings trained on internet corpora (GloVe 2014, fastText 2017). Using the
Single-Category Word Embedding Association Test, we demonstrate the widespread
prevalence of gender biases that also show differences in: (1) frequencies of
words associated with men versus women; (b) part-of-speech tags in
gender-associated words; (c) semantic categories in gender-associated words;
and (d) valence, arousal, and dominance in gender-associated words.
First, in terms of word frequency: we find that, of the 1,000 most frequent
words in the vocabulary, 77% are more associated with men than women, providing
direct evidence of a masculine default in the everyday language of the
English-speaking world. Second, turning to parts-of-speech: the top
male-associated words are typically verbs (e.g., fight, overpower) while the
top female-associated words are typically adjectives and adverbs (e.g., giving,
emotionally). Gender biases in embeddings also permeate parts-of-speech. Third,
for semantic categories: bottom-up, cluster analyses of the top 1,000 words
associated with each gender. The top male-associated concepts include roles and
domains of big tech, engineering, religion, sports, and violence; in contrast,
the top female-associated concepts are less focused on roles, including,
instead, female-specific slurs and sexual content, as well as appearance and
kitchen terms. Fourth, using human ratings of word valence, arousal, and
dominance from a ~20,000 word lexicon, we find that male-associated words are
higher on arousal and dominance, while female-associated words are higher on
valence.
- Abstract(参考訳): 言語コーパスの統計的規則性は、よく知られた社会的バイアスを単語埋め込みに符号化する。
ここでは,インターネットコーポラ(glove 2014 fasttext 2017)でトレーニングされた静的英語単語埋め込みにおけるグループベースバイアスの包括的分析を行うために,性別に着目した。
単一カテゴリー単語埋め込みアソシエーションテストを用いて、(1)男性と女性に関連付けられた単語の頻度の差を示す性別バイアスの広さを実証する。
(b)性別関連語における語尾タグ
(c)性関連語における意味カテゴリー、及び
(d)性関連語における有能性,覚醒性,支配性
まず、単語頻度の観点では、語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があり、英語圏の日常言語における男性的デフォルトの直接的な証拠であることがわかった。
第二に、男性関連語のトップは動詞(例えば、戦い、力過剰)、女性関連語のトップは形容詞と副詞(例えば、感情的に与える)である。
埋め込みにおけるジェンダーバイアスは、スペッチの部分にも浸透する。
第3に、セマンティックカテゴリ:ボトムアップ、各性別に関連する上位1000単語のクラスタ分析。
男性関連の概念のトップは、ビッグテック、エンジニアリング、宗教、スポーツ、暴力の分野である。対照的に、女性関連の概念のトップは、女性固有のスラーや性的コンテンツ、外観やキッチン用語など、役割に重点を置いていない。
第4に、単語のヴァレンス、覚醒、および約2万語近い語彙からの優位の人間の評価を用いて、男性関連語は覚醒と支配において高く、女性関連語はヴァレンスにおいて高いことが分かる。
関連論文リスト
- Beats of Bias: Analyzing Lyrics with Topic Modeling and Gender Bias Measurements [1.5379084885764847]
本稿では,英語の歌詞におけるジェンダーバイアスの分析と判断に,トピックモデリングとバイアス計測技術を用いる。
我々は多種多様な話題,特に最大集団において,多量の挑発的・偽義的な歌詞を観察した。
インテリジェンスと強さに関連する単語は、外見や弱さよりも、ジャンルにまたがる男性バイアスを示す傾向にあり、それは女性バイアスの強い単語である。
論文 参考訳(メタデータ) (2024-09-24T10:24:53Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - The Causal Influence of Grammatical Gender on Distributional Semantics [87.8027818528463]
言語間のジェンダー割り当てがどの程度意味を持つかは、言語学と認知科学における研究の活発な領域である。
我々は、名詞の文法的性別、意味、形容詞選択の間の相互作用を共同で表現する、新しい因果的グラフィカルモデルを提供する。
名詞の意味を制御した場合、文法的性別と形容詞的選択の関係は、ほぼゼロであり、無意味である。
論文 参考訳(メタデータ) (2023-11-30T13:58:13Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - The Undesirable Dependence on Frequency of Gender Bias Metrics Based on
Word Embeddings [0.0]
単語埋め込みに基づく偏見定量化手法を用いて,男女差の測定における周波数の影響について検討した。
その結果,Skip-gramとGloVeは高頻度語で男性バイアスを検出する傾向があり,GloVeは低頻度語で女性バイアスを返す傾向にあることがわかった。
このことは、未シャッフルコーパスで観測される周波数に基づく効果は、単語の関連性からではなく、計量の性質に由来することを証明している。
論文 参考訳(メタデータ) (2023-01-02T18:27:10Z) - Analysis of Male and Female Speakers' Word Choices in Public Speeches [0.0]
TED講義等の公的な住所における男女のプレゼンターの語選択について比較した。
以上の結果から, 男性話者は, 言語, 心理的, 認知的, 社会的な言葉を, 女性話者よりもはるかに多く使用していることが判明した。
論文 参考訳(メタデータ) (2022-11-11T17:30:28Z) - Measuring Gender Bias in Word Embeddings of Gendered Languages Requires
Disentangling Grammatical Gender Signals [3.0349733976070015]
単語埋め込みは、文法性のある言語における名詞とその文法性との関係を学習することを示した。
単語埋め込みから文法的ジェンダー信号を引き離すことは、セマンティック機械学習タスクの改善につながる可能性があることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:11:00Z) - Gender Bias Hidden Behind Chinese Word Embeddings: The Case of Chinese
Adjectives [0.0]
本論文は,中国語形容詞の独特な視点から,静的単語埋め込みにおける性別バイアスについて検討する。
生成した結果と人間によって表されたデータセットを比較することで,単語埋め込みに符号化された性別バイアスが人々の態度とどのように異なるかを示す。
論文 参考訳(メタデータ) (2021-06-01T02:12:45Z) - On the Relationships Between the Grammatical Genders of Inanimate Nouns
and Their Co-Occurring Adjectives and Verbs [57.015586483981885]
我々は6つの異なるジェンダー言語で大規模コーパスを使用する。
名詞の文法的性別とそれらの名詞を直接対象、間接対象、主語とする動詞との間に統計的に有意な関連性を見出した。
論文 参考訳(メタデータ) (2020-05-03T22:49:44Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。