論文の概要: The Undesirable Dependence on Frequency of Gender Bias Metrics Based on
Word Embeddings
- arxiv url: http://arxiv.org/abs/2301.00792v1
- Date: Mon, 2 Jan 2023 18:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:00:29.904953
- Title: The Undesirable Dependence on Frequency of Gender Bias Metrics Based on
Word Embeddings
- Title(参考訳): 単語埋め込みに基づくジェンダーバイアスメトリクスの周波数に対する望ましくない依存性
- Authors: Francisco Valentini, Germ\'an Rosati, Diego Fernandez Slezak, Edgar
Altszyler
- Abstract要約: 単語埋め込みに基づく偏見定量化手法を用いて,男女差の測定における周波数の影響について検討した。
その結果,Skip-gramとGloVeは高頻度語で男性バイアスを検出する傾向があり,GloVeは低頻度語で女性バイアスを返す傾向にあることがわかった。
このことは、未シャッフルコーパスで観測される周波数に基づく効果は、単語の関連性からではなく、計量の性質に由来することを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous works use word embedding-based metrics to quantify societal biases
and stereotypes in texts. Recent studies have found that word embeddings can
capture semantic similarity but may be affected by word frequency. In this work
we study the effect of frequency when measuring female vs. male gender bias
with word embedding-based bias quantification methods. We find that Skip-gram
with negative sampling and GloVe tend to detect male bias in high frequency
words, while GloVe tends to return female bias in low frequency words. We show
these behaviors still exist when words are randomly shuffled. This proves that
the frequency-based effect observed in unshuffled corpora stems from properties
of the metric rather than from word associations. The effect is spurious and
problematic since bias metrics should depend exclusively on word co-occurrences
and not individual word frequencies. Finally, we compare these results with the
ones obtained with an alternative metric based on Pointwise Mutual Information.
We find that this metric does not show a clear dependence on frequency, even
though it is slightly skewed towards male bias across all frequencies.
- Abstract(参考訳): 多くの研究が単語埋め込みに基づくメトリクスを使用して、テキストの社会的バイアスやステレオタイプを定量化している。
最近の研究では、単語埋め込みは意味的類似性を捉えることができるが、単語の頻度に影響される可能性がある。
本研究では, 単語埋め込みに基づくバイアス定量化手法を用いて, 男女差の測定における周波数の影響について検討した。
否定的なサンプリングと手袋を持つスキップグラムは、高頻度の単語では男性バイアスを検知する傾向があり、低頻度の単語では女性バイアスを返しがちである。
単語がランダムにシャッフルされる場合、これらの振る舞いは依然として存在する。
これは、非シャッフルコーパスで観察される周波数ベースの効果が、単語の関連ではなく、計量の性質に由来することを証明している。
バイアスの指標は単語の共起にのみ依存するべきであり、個々の単語頻度には依存しない。
最後に,これらの結果と,ポイントワイズ相互情報に基づく代替指標との比較を行った。
この測定値は,全周波数にわたって男性偏差に対してわずかに偏りがあるにもかかわらず,周波数依存性が明らかでないことがわかった。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics [2.1374208474242815]
いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
論文 参考訳(メタデータ) (2022-11-15T15:11:06Z) - Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics [3.4048739113355215]
インターネットコーパスで学習した英語の静的単語埋め込みにおいて,グループベースのバイアスを包括的に分析する。
単一カテゴリー単語埋め込みアソシエーションテストを用いて,性別バイアスの広範性を示す。
語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があることがわかりました。
論文 参考訳(メタデータ) (2022-06-07T15:35:10Z) - Identifying and Mitigating Gender Bias in Hyperbolic Word Embeddings [34.378806636170616]
ジェンダーバイアスの研究を、最近普及したハイパーボリック単語の埋め込みに拡張する。
本稿では,双曲型単語表現におけるジェンダーバイアスを定量化するための新しい尺度であるジロコシンバイアスを提案する。
評価試験の結果、Poincar'e Gender Debias (PGD) は最小のセマンティックオフセットを追加しながらバイアスを効果的に低減することが示された。
論文 参考訳(メタデータ) (2021-09-28T14:43:37Z) - Robustness and Reliability of Gender Bias Assessment in Word Embeddings:
The Role of Base Pairs [23.574442657224008]
単語埋め込みはジェンダーバイアスを示すことが示されており、これを定量化するために様々な方法が提案されている。
これまでの研究では、男女の単語ペアを利用して偏見を測定し、偏見のある類似点を抽出してきた。
これらの性的なペアへの依存には、強い制限があることが示される。
特に、"man is to computer-grammer as woman is to homemaker"というよく知られたアナロジーは、社会的バイアスよりも言葉の類似性によるものである。
論文 参考訳(メタデータ) (2020-10-06T16:09:05Z) - Gender Stereotype Reinforcement: Measuring the Gender Bias Conveyed by
Ranking Algorithms [68.85295025020942]
本稿では,性別ステレオタイプをサポートする検索エンジンの傾向を定量化するジェンダーステレオタイプ強化(GSR)尺度を提案する。
GSRは、表現上の害を定量化できる情報検索のための、最初の特別に調整された尺度である。
論文 参考訳(メタデータ) (2020-09-02T20:45:04Z) - Nurse is Closer to Woman than Surgeon? Mitigating Gender-Biased
Proximities in Word Embeddings [37.65897382453336]
単語ベクターの空間配置に隠された性別バイアスを緩和することは,既存の単語埋め込みの処理方法では不可能である。
我々は,単語ベクトルに存在するバイアスを排除し,隣接するベクトルの空間分布を変化させる,新しいジェンダーデバイアス手法であるRAN-Debiasを提案する。
我々はまた、新しいバイアス評価指標、ジェンダーベースIllicit Proximity Estimate (GIPE)を提案する。
論文 参考訳(メタデータ) (2020-06-02T20:50:43Z) - Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation [94.98656228690233]
本稿では,性別サブスペースの推測と削除に先立って,コーパス正規性に対する単語埋め込みを浄化する手法を提案する。
本手法は,事前学習した単語埋め込みの分布的意味を保ちつつ,性別バイアスを従来の手法よりもはるかに大きい程度に低減する。
論文 参考訳(メタデータ) (2020-05-03T02:33:20Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。