論文の概要: Regional Negative Bias in Word Embeddings Predicts Racial Animus--but
only via Name Frequency
- arxiv url: http://arxiv.org/abs/2201.08451v1
- Date: Thu, 20 Jan 2022 20:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 21:32:45.479886
- Title: Regional Negative Bias in Word Embeddings Predicts Racial Animus--but
only via Name Frequency
- Title(参考訳): 単語埋め込みにおける局所的負のバイアス--名前周波数のみを通して
- Authors: Austin van Loon, Salvatore Giorgi, Robb Willer, Johannes Eichstaedt
- Abstract要約: 地理的にタグ付けされたソーシャルメディアデータからの反黒人WEAT推定は、人種的アニマスのいくつかの指標と強く相関していることを示す。
また,これらの相関関係は,ブラックネームとホワイトネームの相関関係において,ブラックネームの頻度によって説明されることを示した。
- 参考スコア(独自算出の注目度): 2.247786323899963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The word embedding association test (WEAT) is an important method for
measuring linguistic biases against social groups such as ethnic minorities in
large text corpora. It does so by comparing the semantic relatedness of words
prototypical of the groups (e.g., names unique to those groups) and attribute
words (e.g., 'pleasant' and 'unpleasant' words). We show that anti-black WEAT
estimates from geo-tagged social media data at the level of metropolitan
statistical areas strongly correlate with several measures of racial
animus--even when controlling for sociodemographic covariates. However, we also
show that every one of these correlations is explained by a third variable: the
frequency of Black names in the underlying corpora relative to White names.
This occurs because word embeddings tend to group positive (negative) words and
frequent (rare) words together in the estimated semantic space. As the
frequency of Black names on social media is strongly correlated with Black
Americans' prevalence in the population, this results in spurious anti-Black
WEAT estimates wherever few Black Americans live. This suggests that research
using the WEAT to measure bias should consider term frequency, and also
demonstrates the potential consequences of using black-box models like word
embeddings to study human cognition and behavior.
- Abstract(参考訳): 単語埋め込み関連テスト(WEAT)は,大規模テキストコーパスにおける少数民族などの社会集団に対する言語バイアスを測定する重要な方法である。
これは、グループ(例えば、これらのグループに固有の名前)と属性(例えば、"pleasant" や "unpleasant" など)の原型的な単語の意味的関連性を比較することで実現している。
都市統計のレベルでの地理的タグ付きソーシャルメディアデータからの反黒人ウィート推定は,社会デミック的共変量を制御する場合であっても,いくつかの人種的アニマス尺度と強く相関することが示された。
しかし、これらの相関関係はいずれも第3変数によって説明され、ブラックネームの頻度はホワイトネームと比較して下位のコーパスにある。
これは、単語の埋め込みが、推定された意味空間において、正の(負の)単語と頻繁な(まれな)単語をグループ化する傾向があるためである。
ソーシャルメディア上での黒人の名前の頻度は、黒人の人口の増加と強く相関しているため、黒人がほとんど住んでいない場所では、反黒人のWEAT推定が急激になる。
このことは、WEATを用いてバイアスを測定する研究は、用語の頻度を考慮すべきであり、また、単語埋め込みのようなブラックボックスモデルを用いて人間の認知と行動を研究することによる潜在的な結果を示すことを示唆している。
関連論文リスト
- A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers [0.0]
バイアス検出のためにテンプレートや特定のデータセットに頼るのではなく、ターゲットドメインデータに小さな摂動を持つ対実例を作成します。
感情,感情,ヘイトスピーチなどの主観的分析に広く用いられている分類器について,本研究の結果は,ある国で話されている言語に関する肯定的なバイアスを示す。
論文 参考訳(メタデータ) (2024-07-01T22:17:17Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Identification of Biased Terms in News Articles by Comparison of
Outlet-specific Word Embeddings [9.379650501033465]
我々は2つの単語埋め込みモデルを訓練し、1つは左翼のテキストで、もう1つは右翼のニュースメディアで訓練する。
我々の仮説は、単語の埋め込み空間における表現は、偏りのある単語よりも非偏りのある単語に類似している、というものである。
本稿では,単語の埋め込みによって測定されたバイアス語の文脈を詳細に考察する。
論文 参考訳(メタデータ) (2021-12-14T13:23:49Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z) - Detecting Emergent Intersectional Biases: Contextualized Word Embeddings
Contain a Distribution of Human-like Biases [10.713568409205077]
最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。
本稿では、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できる、コンテキスト適応型埋め込みアソシエーションテスト(CEAT)を紹介する。
静的な単語埋め込みから交差点バイアスと緊急交差点バイアスを自動的に識別する2つの方法,IBD (Intersectional Bias Detection) とEmergent Intersectional Bias Detection (EIBD) を開発した。
論文 参考訳(メタデータ) (2020-06-06T19:49:50Z) - ValNorm Quantifies Semantics to Reveal Consistent Valence Biases Across
Languages and Over Centuries [3.0349733976070015]
単語埋め込みは、単語共起統計によって得られた言語規則性から暗黙のバイアスを学ぶ。
単語埋め込みにおける人間のようなバイアスを定量化する手法を拡張することにより、本質的な評価課題であるValNormを導入する。
我々はValNormを7言語からの静的な単語埋め込みと200年に及ぶ歴史英語のテキストに適用する。
論文 参考訳(メタデータ) (2020-06-06T19:29:36Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。