論文の概要: Low Frequency Names Exhibit Bias and Overfitting in Contextualizing
Language Models
- arxiv url: http://arxiv.org/abs/2110.00672v1
- Date: Fri, 1 Oct 2021 22:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 16:00:54.572772
- Title: Low Frequency Names Exhibit Bias and Overfitting in Contextualizing
Language Models
- Title(参考訳): 文脈化言語モデルにおける低周波名称のバイアスと過剰性
- Authors: Robert Wolfe and Aylin Caliskan
- Abstract要約: 4つの言語モデルのトレーニングコーパスでは,主に女性名や非白人名が少なくなっている。
頻度の低い名前は、文脈によってより自己相似である。
人種的偏見とBERT.492の命名頻度の間のスピアマンのrは、低頻度の少数民族の名前が不快さとより関連していることを示している。
- 参考スコア(独自算出の注目度): 4.1717286666031725
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We use a dataset of U.S. first names with labels based on predominant gender
and racial group to examine the effect of training corpus frequency on
tokenization, contextualization, similarity to initial representation, and bias
in BERT, GPT-2, T5, and XLNet. We show that predominantly female and non-white
names are less frequent in the training corpora of these four language models.
We find that infrequent names are more self-similar across contexts, with
Spearman's r between frequency and self-similarity as low as -.763. Infrequent
names are also less similar to initial representation, with Spearman's r
between frequency and linear centered kernel alignment (CKA) similarity to
initial representation as high as .702. Moreover, we find Spearman's r between
racial bias and name frequency in BERT of .492, indicating that lower-frequency
minority group names are more associated with unpleasantness. Representations
of infrequent names undergo more processing, but are more self-similar,
indicating that models rely on less context-informed representations of
uncommon and minority names which are overfit to a lower number of observed
contexts.
- Abstract(参考訳): 我々は、性別や人種グループに基づくラベル付き米国ファーストネームのデータセットを用いて、BERT、GPT-2、T5、XLNetのトークン化、文脈化、初期表現との類似性、バイアスに対するコーパスの訓練頻度の影響を調べる。
これらの4言語モデルのトレーニングコーパスでは,主に女性名や非白人名が少なくなっている。
頻度と自己相似性の間のスピアマンのrは-.763である。
頻度と線形中心核アライメント(CKA)の間のスピアマンの r は、初期表現に .702 まで類似している。
さらに、.492 の BERT における人種バイアスと名前周波数の間のスピアマンのrは、低頻度の少数民族の名前が不快さとより関連していることを示している。
希少な名前の表現は、より多くの処理を行うが、より自己相似であり、モデルは観測される少数の文脈に過度に適合する、まれな名前とマイノリティな名前のより少ない文脈情報表現に依存していることを示している。
関連論文リスト
- What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - The Undesirable Dependence on Frequency of Gender Bias Metrics Based on
Word Embeddings [0.0]
単語埋め込みに基づく偏見定量化手法を用いて,男女差の測定における周波数の影響について検討した。
その結果,Skip-gramとGloVeは高頻度語で男性バイアスを検出する傾向があり,GloVeは低頻度語で女性バイアスを返す傾向にあることがわかった。
このことは、未シャッフルコーパスで観測される周波数に基づく効果は、単語の関連性からではなく、計量の性質に由来することを証明している。
論文 参考訳(メタデータ) (2023-01-02T18:27:10Z) - Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics [2.1374208474242815]
いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
論文 参考訳(メタデータ) (2022-11-15T15:11:06Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Long-tail learning via logit adjustment [67.47668112425225]
現実世界の分類問題は通常、不均衡または長い尾のラベルの分布を示す。
これは、そのようなラベルを一般化する上での課題であり、また、支配的なラベルに偏った「学習」をもたらさせる。
これらの課題に対処するために、標準的なソフトマックスクロスエントロピートレーニングの2つの簡単な修正を提案する。
論文 参考訳(メタデータ) (2020-07-14T19:27:13Z) - Detecting Emergent Intersectional Biases: Contextualized Word Embeddings
Contain a Distribution of Human-like Biases [10.713568409205077]
最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。
本稿では、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できる、コンテキスト適応型埋め込みアソシエーションテスト(CEAT)を紹介する。
静的な単語埋め込みから交差点バイアスと緊急交差点バイアスを自動的に識別する2つの方法,IBD (Intersectional Bias Detection) とEmergent Intersectional Bias Detection (EIBD) を開発した。
論文 参考訳(メタデータ) (2020-06-06T19:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。