論文の概要: GKnow: Measuring the Entanglement of Gender Bias and Factual Gender
- arxiv url: http://arxiv.org/abs/2605.12299v1
- Date: Tue, 12 May 2026 15:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.984886
- Title: GKnow: Measuring the Entanglement of Gender Bias and Factual Gender
- Title(参考訳): GKnow:ジェンダーバイアスとファクチュアルジェンダーの絡み合いの測定
- Authors: Leonor Veloso, Hinrich Schütze,
- Abstract要約: gknowは、性別関連予測の異なるタイプの言語モデルにおいて、性別に関する知識と性別バイアスを評価するためのベンチマークである。
我々は,ニューロンのアブレーションが,ステレオタイプや事実を異にするベンチマークに与える影響を検証した。
- 参考スコア(独自算出の注目度): 47.39675194552945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have analyzed the impact of individual components of neural networks on gendered predictions, often with a focus on mitigating gender bias. However, mechanistic interpretations of gender tend to (i) focus on a very specific gender-related task, such as gendered pronoun prediction, or (ii) fail to distinguish between the production of factually gendered outputs (the correct assumption of gender given a word that carries gender as a semantic property) and gender biased outputs (based on a stereotype). To address these issues, we curate \gknow, a benchmark to assess gender knowledge and gender bias in language models across different types of gender-related predictions. \gknow allows us to identify and analyze circuits and individual neurons responsible for gendered predictions. We test the impact of neuron ablation on benchmarks for disentangling stereotypical and factual gender (DiFair and the test set of GKnow), as well as StereoSet. Results show that gender bias and factual gender are severely entangled on the level of both circuits and neurons, entailing that ablation is an unreliable debiasing method. Furthermore, we show that benchmarks for evaluating gender bias can hide the decrease in factual gender knowledge that accompanies neuron ablation. We curate GKnow as a contribution to the continuous development of robust gender bias benchmarks.
- Abstract(参考訳): 最近の研究では、ニューラルネットワークの個々のコンポーネントが性別予測に与える影響を分析しており、しばしば性別バイアスを緩和することに焦点を当てている。
しかし、性別の機械的解釈は、しばしばある。
(i)ジェンダー付き代名詞予測など、非常に特定のジェンダー関連タスクに焦点を合わせること
(二)ジェンダーバイアスアウトプットと(ステレオタイプに基づく)ジェンダーバイアスアウトプットとを区別できない。
これらの問題に対処するために、さまざまなタイプの性別関連予測において、言語モデルにおける性別知識と性別バイアスを評価するベンチマークである \gknow をキュレートする。
\gknowは、性別予測に責任を負う回路や個々のニューロンを識別し、分析することを可能にする。
我々は、神経アブレーションがステレオタイプと事実性(DiFairとGKnowのテストセット)とStereoSetとを混同するベンチマークに与える影響を検証した。
その結果、性別バイアスと事実性差は、回路とニューロンの両方のレベルに強く絡み合っており、アブレーションが信頼性の低いデバイアス法であることが示唆された。
さらに,ジェンダーバイアスを評価するためのベンチマークでは,ニューロンのアブレーションに伴う現実的なジェンダー知識の低下を隠蔽する可能性が示唆された。
我々は、頑健な性別バイアスベンチマークの継続的な開発への貢献としてGKnowをキュレートする。
関連論文リスト
- Gender Trouble in Language Models: An Empirical Audit Guided by Gender Performativity Theory [0.19116784879310028]
言語モデルは有害な性別のステレオタイプをエンコードし、永続する。
これらのバイナリカテゴリの1つに適切に該当しない性的な用語は削除され、謝罪される。
以上の結果から,言語モデルにおける性障害の定義と対処方法の再評価の必要性が示唆された。
論文 参考訳(メタデータ) (2025-05-20T08:36:47Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - DiFair: A Benchmark for Disentangled Assessment of Gender Knowledge and
Bias [13.928591341824248]
事前訓練された言語モデルでよく見られる性別バイアスを軽減するために、デバイアス技術が提案されている。
これらはしばしば、予測においてモデルが性中立である範囲をチェックするデータセットで評価される。
この評価プロトコルは、バイアス緩和が有意義なジェンダー知識に悪影響を及ぼす可能性を見落としている。
論文 参考訳(メタデータ) (2023-10-22T15:27:16Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Theories of "Gender" in NLP Bias Research [0.0]
NLPにおけるジェンダーバイアスに関する200近い記事を調査した。
記事の大多数は、性別に関する理論を明示していない。
多くの人は、トランス、ノンバイナリ、インターセックスの人々の存在と経験を無視した方法で、性の特徴、社会的性別、言語性について説明している。
論文 参考訳(メタデータ) (2022-05-05T09:20:53Z) - Evaluating Gender Bias in Natural Language Inference [5.034017602990175]
推論による自然言語理解における性別バイアスの評価手法を提案する。
チャレンジタスクを使用して、職業を用いたジェンダーステレオタイプの存在に関する最先端のNLIモデルを調査します。
その結果,mnliとsnliデータセットでトレーニングされた3モデルでは,性別による予測誤差が有意に高いことが示唆された。
論文 参考訳(メタデータ) (2021-05-12T09:41:51Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。